商傳媒|葉安庭/綜合外電報導
網路基礎設施龍頭 Cloudflare 近日宣布,旗下無伺服器推論平台 Workers AI 已完成架構升級,正式引進由 Moonshot AI 開發的 Kimi K2.5 大型模型。此次更新不僅標誌著平台具備處理超大規模上下文的能力,更透過獨家的 Infire 推論引擎與「分離式預填」策略,成功將 AI 代理程式(Agent)的運算成本大幅削減 77%,為全球開發者提供更具價格競爭力的企業級 AI 推論環境。
Cloudflare 此次將 Kimi K2.5 模型納入 Workers AI,主要瞄準複雜的 AI 代理應用。Kimi K2.5 以其優異的多輪工具調用與視覺分析能力著稱,並具備 256k(實為 262k)的長文本處理能力,能應對密集的程式碼審查與自動化任務。
為了在無伺服器環境中維持大型 LLM 的運行效率,Cloudflare 針對推論堆疊進行了底層技術革新:
- 分離式預填 (Disaggregated Prefill):將輸入處理(Prefill)與內容生成(Generation)階段在硬體層級分離,最大化 GPU 使用率並減少延遲。
- 強化前綴快取 (Prefix Caching):針對 AI 代理頻繁重複的系統指令與背景資料進行快取,並提供較低的計價費率,大幅提振首次響應時間(TTFT)。
- 非同步 API 重構:改採拉取式系統(Pull-based system),確保在高負載時段,非即時性任務(如大規模程式碼掃描)仍能穩定執行而不報錯。
Cloudflare 在台擁有密集的邊緣運算節點,此次技術升級對台灣正積極轉向 AI 轉型(AI Transformation)的企業具有高度價值。法人指出,台灣許多 SaaS 開發商過去受限於昂貴的專有模型授權費,Cloudflare 透過提供開放原始碼模型的推論服務,並藉由技術手段降低 77% 成本,將有效提振國內企業建置私有 AI 代理程式的意願,降低進入門檻。








