商傳媒|何映辰/台北報導
全球人工智慧(AI)晶片領導廠商輝達(Nvidia)昨日(17日)發表一項名為「KV快取轉換編碼」(KV Cache Transform Coding, KVTC)的嶄新技術,能大幅降低大型語言模型(LLM)處理對話歷史時的記憶體佔用,最高可達20倍,且不需更改模型權重。這項創新亦能將首個詞元(token)的生成時間加速達8倍,對企業級AI應用效率提升具關鍵意義。
AI多輪對話的記憶體瓶頸
在開發複雜的AI應用,如程式撰寫助理或聊天機器人時,LLM仰賴「鍵值(Key-Value, KV)快取」機制來儲存過往對話的隱藏數值表示,避免每次使用者輸入新提示時,都需重新計算整個對話歷史。然而,隨著對話輪次增加,此快取所佔用的記憶體空間會迅速擴大,成為延遲與基礎設施成本的嚴重瓶頸。輝達深度學習工程師 Adrian Lancucki 透過《VentureBeat》指出,由於LLM在推論期間高度受記憶體限制,同時服務多名使用者時,GPU記憶體耗盡而非運算時間,才是系統效能的最大限制。有效的KV快取管理因此成為關鍵,因為閒置的快取必須快速從GPU記憶體卸載,以容納其他使用者,並在對話恢復時迅速還原,這類基礎設施成本也反映在商業定價中。
市場上現有的壓縮解決方案往往無法全面解決問題。例如,為網路傳輸設計的壓縮工具壓縮率低;其他壓縮方法則需耗費大量資源進行即時運算;而量化(quantization)或稀疏化(sparsification)等熱門技術,則可能導致延遲增加、準確度下降,或必須修改模型權重,限制了其實用性。輝達研究人員發現,KV張量雖龐大複雜,其內含的資訊卻具有高度的「低秩結構」(low-rank structure),可透過更精簡的方式精確表示,KVTC技術正是以此為核心。
借鑒媒體壓縮技術提升效率
KVTC技術借鑒了傳統媒體壓縮領域的「轉換編碼」(transform coding)概念,此方法廣泛應用於JPEG等影像與視訊壓縮格式。該框架透過一系列快速的多步驟流程,在推論階段之間執行快取縮減,以避免拖慢詞元生成速度。Lancucki 強調,這種「媒體壓縮」方法具非侵入性,不需修改模型權重或程式碼,且靠近傳輸層運作,有利於企業部署。
KVTC流程首步驟是利用主成分分析(Principal Component Analysis, PCA),根據KV快取數據的重要性對特徵進行對齊。PCA是一種統計技術,透過分離數據最關鍵的特徵並消除冗餘,來提高模型效率。此校準步驟僅在每個模型初次使用時離線執行一次,其生成的對齊矩陣可重複使用,不影響後續壓縮過程。接著,系統透過動態規劃演算法,自動分配每個特定數據維度所需的記憶體預算,讓最重要的主成分獲得高精度,較不重要的部分則分配較少位元甚至完全捨棄。最後,經過優化和量化的數據會被打包成位元組陣列,並透過DEFLATE熵編碼器進行壓縮。此步驟利用輝達的nvCOMP函式庫在GPU上平行執行,確保極高的運算速度。
當使用者再次互動時,KVTC會以反向操作解壓縮數據。為加速此過程,系統會分區塊、分層級地執行大部分解壓縮工作,使AI模型能夠在背景解壓縮剩餘區塊的同時,利用首個解壓縮完成的區塊開始計算下一個回應,大幅提升反應速度。
效能卓越且準確度損耗極微
輝達研究人員對KVTC進行了廣泛測試,涵蓋了從15億到700億參數的各類模型,包括Llama 3系列、Mistral NeMo,以及注重推理的R1蒸餾版Qwen 2.5模型。測試基準包括MATH-500、LiveCodeBench等複雜數學與程式編寫挑戰,以及「大海撈針」(Needle In A Haystack)等密集型長上下文檢索任務。
結果顯示,在20倍有效壓縮率下,KVTC在大多數任務中,相較於未壓縮的原始模型,準確度損失始終保持在1個百分點以內。即使將壓縮率推升至32倍或64倍的極限,KVTC的表現依然出色。相比之下,KIVI和GEAR等主流基線技術在僅5倍壓縮率下,特別是在長上下文任務上,就出現了嚴重的準確度下降。而H2O和TOVA等標準快取驅逐方法作為通用壓縮器,在要求檢索深層上下文資訊時,則完全失效。
以15億參數的Qwen 2.5程式助理模型為例,其每個詞元通常需要29KB記憶體。透過8倍壓縮設定,KVTC將記憶體佔用縮減至約3.2KB,而程式編寫準確度僅微幅下降0.3個百分點。KVTC對於提升使用者體驗也助益良多,它顯著縮短了「首個詞元生成時間」(Time-to-First-Token, TTFT)。在處理8000個詞元的提示時,未經優化的12B模型在輝達H100 GPU上需約3秒才能重新計算歷史紀錄;而透過KVTC,系統只需380毫秒即可解壓縮快取,將首個詞元生成時間縮短達8倍。
加速AI普及並影響硬體發展
Lancucki 指出,KVTC技術最適合應用於長上下文、多輪次的AI情境,例如程式設計助理、疊代式代理推理工作流程,以及疊代式檢索增強生成(RAG)。輝達預計很快會將這項高度可移植的優化實作整合至Dynamo框架內的KV區塊管理器(KVBM)中,使其能與vLLM等主流開源推論引擎相容。這項技術透過降低LLM運行的記憶體需求與運算成本,可望加速AI技術的普及與大規模部署。
對於全球半導體產業,特別是台灣半導體供應鏈而言,KVTC技術的推出意味著AI硬體發展將更加注重效率與成本效益。台灣在全球先進製程與高頻寬記憶體(HBM)封裝領域佔有領先地位,例如台積電(TSMC)在製造輝達AI晶片及相關封裝技術中扮演關鍵角色。KVTC有助於最佳化AI模型的記憶體使用,這將可能引導未來AI晶片與硬體設計朝向更精巧、更具成本效益的方向發展,同時提高現有AI基礎設施的利用率,鞏固台灣在供應這些高效能AI解決方案上的核心地位,並進一步推動AI生態系的創新。








