輝達新技術讓大語言模型記憶體用量銳減20倍

2026-03-18

商傳媒｜何映辰／台北報導

全球人工智慧（AI）晶片領導廠商輝達（Nvidia）昨日（17日）發表一項名為「KV快取轉換編碼」（KV Cache Transform Coding, KVTC）的嶄新技術，能大幅降低大型語言模型（LLM）處理對話歷史時的記憶體佔用，最高可達20倍，且不需更改模型權重。這項創新亦能將首個詞元（token）的生成時間加速達8倍，對企業級AI應用效率提升具關鍵意義。

AI多輪對話的記憶體瓶頸

在開發複雜的AI應用，如程式撰寫助理或聊天機器人時，LLM仰賴「鍵值（Key-Value, KV）快取」機制來儲存過往對話的隱藏數值表示，避免每次使用者輸入新提示時，都需重新計算整個對話歷史。然而，隨著對話輪次增加，此快取所佔用的記憶體空間會迅速擴大，成為延遲與基礎設施成本的嚴重瓶頸。輝達深度學習工程師 Adrian Lancucki 透過《VentureBeat》指出，由於LLM在推論期間高度受記憶體限制，同時服務多名使用者時，GPU記憶體耗盡而非運算時間，才是系統效能的最大限制。有效的KV快取管理因此成為關鍵，因為閒置的快取必須快速從GPU記憶體卸載，以容納其他使用者，並在對話恢復時迅速還原，這類基礎設施成本也反映在商業定價中。

市場上現有的壓縮解決方案往往無法全面解決問題。例如，為網路傳輸設計的壓縮工具壓縮率低；其他壓縮方法則需耗費大量資源進行即時運算；而量化（quantization）或稀疏化（sparsification）等熱門技術，則可能導致延遲增加、準確度下降，或必須修改模型權重，限制了其實用性。輝達研究人員發現，KV張量雖龐大複雜，其內含的資訊卻具有高度的「低秩結構」（low-rank structure），可透過更精簡的方式精確表示，KVTC技術正是以此為核心。

借鑒媒體壓縮技術提升效率

KVTC技術借鑒了傳統媒體壓縮領域的「轉換編碼」（transform coding）概念，此方法廣泛應用於JPEG等影像與視訊壓縮格式。該框架透過一系列快速的多步驟流程，在推論階段之間執行快取縮減，以避免拖慢詞元生成速度。Lancucki 強調，這種「媒體壓縮」方法具非侵入性，不需修改模型權重或程式碼，且靠近傳輸層運作，有利於企業部署。

KVTC流程首步驟是利用主成分分析（Principal Component Analysis, PCA），根據KV快取數據的重要性對特徵進行對齊。PCA是一種統計技術，透過分離數據最關鍵的特徵並消除冗餘，來提高模型效率。此校準步驟僅在每個模型初次使用時離線執行一次，其生成的對齊矩陣可重複使用，不影響後續壓縮過程。接著，系統透過動態規劃演算法，自動分配每個特定數據維度所需的記憶體預算，讓最重要的主成分獲得高精度，較不重要的部分則分配較少位元甚至完全捨棄。最後，經過優化和量化的數據會被打包成位元組陣列，並透過DEFLATE熵編碼器進行壓縮。此步驟利用輝達的nvCOMP函式庫在GPU上平行執行，確保極高的運算速度。

當使用者再次互動時，KVTC會以反向操作解壓縮數據。為加速此過程，系統會分區塊、分層級地執行大部分解壓縮工作，使AI模型能夠在背景解壓縮剩餘區塊的同時，利用首個解壓縮完成的區塊開始計算下一個回應，大幅提升反應速度。

效能卓越且準確度損耗極微

輝達研究人員對KVTC進行了廣泛測試，涵蓋了從15億到700億參數的各類模型，包括Llama 3系列、Mistral NeMo，以及注重推理的R1蒸餾版Qwen 2.5模型。測試基準包括MATH-500、LiveCodeBench等複雜數學與程式編寫挑戰，以及「大海撈針」（Needle In A Haystack）等密集型長上下文檢索任務。

結果顯示，在20倍有效壓縮率下，KVTC在大多數任務中，相較於未壓縮的原始模型，準確度損失始終保持在1個百分點以內。即使將壓縮率推升至32倍或64倍的極限，KVTC的表現依然出色。相比之下，KIVI和GEAR等主流基線技術在僅5倍壓縮率下，特別是在長上下文任務上，就出現了嚴重的準確度下降。而H2O和TOVA等標準快取驅逐方法作為通用壓縮器，在要求檢索深層上下文資訊時，則完全失效。

以15億參數的Qwen 2.5程式助理模型為例，其每個詞元通常需要29KB記憶體。透過8倍壓縮設定，KVTC將記憶體佔用縮減至約3.2KB，而程式編寫準確度僅微幅下降0.3個百分點。KVTC對於提升使用者體驗也助益良多，它顯著縮短了「首個詞元生成時間」（Time-to-First-Token, TTFT）。在處理8000個詞元的提示時，未經優化的12B模型在輝達H100 GPU上需約3秒才能重新計算歷史紀錄；而透過KVTC，系統只需380毫秒即可解壓縮快取，將首個詞元生成時間縮短達8倍。

加速AI普及並影響硬體發展

Lancucki 指出，KVTC技術最適合應用於長上下文、多輪次的AI情境，例如程式設計助理、疊代式代理推理工作流程，以及疊代式檢索增強生成（RAG）。輝達預計很快會將這項高度可移植的優化實作整合至Dynamo框架內的KV區塊管理器（KVBM）中，使其能與vLLM等主流開源推論引擎相容。這項技術透過降低LLM運行的記憶體需求與運算成本，可望加速AI技術的普及與大規模部署。

對於全球半導體產業，特別是台灣半導體供應鏈而言，KVTC技術的推出意味著AI硬體發展將更加注重效率與成本效益。台灣在全球先進製程與高頻寬記憶體（HBM）封裝領域佔有領先地位，例如台積電（TSMC）在製造輝達AI晶片及相關封裝技術中扮演關鍵角色。KVTC有助於最佳化AI模型的記憶體使用，這將可能引導未來AI晶片與硬體設計朝向更精巧、更具成本效益的方向發展，同時提高現有AI基礎設施的利用率，鞏固台灣在供應這些高效能AI解決方案上的核心地位，並進一步推動AI生態系的創新。