商傳媒|責任編輯/綜合外電報導
Google研究團隊近日發布突破性演算法TurboQuant,旨在大幅降低大型語言模型(LLM)的記憶體使用量,同時提升運算效能並降低營運成本。這項技術平均能使LLM的關鍵值快取(key-value cache)記憶體使用量減少六倍,運算速度提升八倍,並可為企業節省逾五成的雲端運算開支。
根據《Ars Technica》及《Venturebeat》報導,傳統的量化(quantization)技術雖然能縮小模型,但往往會犧牲輸出品質。TurboQuant則不同,它被描述為一種無需額外訓練、與數據無關(data-oblivious)的解決方案,能維持AI模型的智慧表現,且適用於既有模型。
獨特壓縮機制兼顧效能與精確度
TurboQuant的核心在於兩階段的數學框架:PolarQuant與量化式約翰遜-林登斯特勞斯(Quantized Johnson-Lindenstrauss, QJL)。首先,PolarQuant將高維度向量從標準笛卡爾坐標轉換為極坐標,這種新表示法能更緊湊地儲存和處理數據,並省去傳統方法中昂貴的正規化常數。接著,QJL則針對殘餘誤差數據應用1位元轉換,將每個誤差數值簡化為一個符號位(+1或-1),以確保其統計特性與高精確度原始數據一致,從而實現精準的錯誤修正,最終提高注意力分數的計算精確度。
該演算法已在Gemma與Mistral等開源模型上,透過長上下文基準測試進行驗證,成功將關鍵值快取量化至3位元,在某些案例中甚至可達2.5位元,仍能維持甚至達成百分之百的召回率(recall score)。在NVIDIA H100加速器上的測試顯示,4位元TurboQuant在計算注意力對數(attention logits)方面的速度,比32位元未量化的密鑰快上八倍。
降低運算門檻 推動AI普及化
Google以開放研究框架的形式發布這些方法論,演算法及相關研究論文皆已公開且可免費取得,包括企業用途。此舉縮小了本地端AI與昂貴雲端訂閱服務之間的差距,使得AI模型更容易在消費級硬體上運行。例如,配備MLX(適用於Apple Silicon)的Mac Mini即可處理長達十萬個Token的對話,而不會損害模型品質。這不僅對AI開發者和企業而言是重要突破,也為資料隱私敏感的組織提供了在自有硬體或邊緣設備上運行大型模型的可能性。
這項研究成果將在今年稍晚於巴西里約熱內盧舉行的國際學習表徵大會(ICLR 2026)以及摩洛哥丹吉爾舉辦的人工智慧與統計年會(AISTATS 2026)上發表。市場對於這項技術的反應已顯現,記憶體供應商如美光(Micron)和威騰電子(Western Digital)的股價便出現下跌趨勢,顯示演算法效率的提升可能影響對高頻寬記憶體(HBM)的市場需求。








