商傳媒|責任編輯/綜合外電報導
舊金山人工智慧編碼平台 Cursor 的開發商 Anysphere,於日前宣布推出其最新內部編碼模型 Composer 2。這款模型已整合至 Cursor 的代理式 AI 編碼環境中,並展現出較前代產品顯著提升的效能,特別是在特定基準測試中,已超越市場主流的 Anthropic Claude Opus 4.6,但仍略遜於 OpenAI 的 GPT-5.4。此舉標誌著 Anysphere 在高價值 293 億美元的估值下,持續推動 AI 輔助程式開發工具的發展。
根據 Cursor 公布的數據,Composer 2 在多項獨立基準測試中表現亮眼。在 CursorBench 上,Composer 2 獲得 61.3 分,終端代理測試(Terminal-Bench 2.0)得分為 61.7,而多語言軟體工程基準(SWE-bench Multilingual)則達到 73.7 分。相較於今年二月推出的前代模型 Composer 1.5,其分別為 44.2、47.9 及 65.9 分,顯示 Composer 2 在品質上實現了大幅躍進。
更值得關注的是,在衡量 AI 代理在指令行終端介面中執行任務能力的 Terminal-Bench 2.0 測試中,Composer 2 以 61.7 分的成績,成功超越了 Claude Opus 4.6 的 58.0 分,以及 Opus 4.5 的 52.1 分。然而,儘管表現出色,Composer 2 仍未能撼動 OpenAI GPT-5.4 的領先地位,後者在此項測試中獲得 75.1 分。Cursor 方面表示,此模型並非旨在全面超越所有競爭對手,而是將其效能提升至更具競爭力的水準。
除了性能提升,Composer 2 在成本效益方面也帶來顯著優勢。新版 Composer 2 標準模型的輸入和輸出代幣每百萬分別為 0.50 美元和 2.50 美元。同時,Cursor 也推出了速度更快、價格稍高的 Composer 2 Fast 版本,其每百萬輸入和輸出代幣成本分別為 1.50 美元和 7.50 美元,並將其設定為用戶的預設體驗。相較於 Composer 1.5,Composer 2 標準版在輸入和輸出代幣成本上均降低了約 86%,而 Composer 2 Fast 則便宜約 57%。此外,針對重複傳送相同代幣的快取讀取(cache-read)定價也同步調降,進一步提升了其經濟吸引力。
Composer 2 的核心賣點在於其「長週期代理式編碼」能力。Cursor 強調,此模型不僅是提供更佳的程式碼補齊,更旨在解決 AI 編碼領域中一個懸而未決的挑戰:如何讓 AI 在複雜、長期的開發流程中保持穩定可靠。這類流程可能包含閱讀程式碼儲存庫、決定修改內容、編輯多個檔案、執行指令、解釋錯誤並持續推進專案目標。
為此,Composer 2 採用了首次的連續預訓練與強化學習,使其具備了更強大的基礎,得以處理需數百項操作才能完成的長週期編碼任務。該模型擁有 20 萬個代幣的上下文視窗,並針對 Cursor 內部的工具使用、檔案編輯與終端機操作進行了優化,甚至採用了長週期任務的自我摘要技術。這意味著 Composer 2 已與 Cursor 的代理工具堆疊(包含語義程式碼搜尋、檔案搜尋、檔案編輯、殼層指令、瀏覽器控制及網路存取等)深度整合,能提供更全面且流暢的開發體驗。
儘管 Composer 2 在基準測試中展現出強勁實力,但其作為一個專為 Cursor 生態系統設計的模型,並未以通用型 API 形式獨立發布,這限制了其可應用範圍。對於希望將模型廣泛部署於多個外部工具與平台的團隊而言,這或許是一個考量點。然而,對於已深度使用 Cursor 作為主要開發環境的程式設計師來說,這種緊密整合帶來的價值可能超越單純的模型性能指標。
當前,AI 編碼領域的競爭日益激烈,主要 AI 模型開發商如 OpenAI 和 Anthropic 也正積極推出自家的編碼介面與代理工具(例如 OpenAI 的 Codex 和 Anthropic 的 Claude Code),這對 Cursor 這類中介平台構成了挑戰。社交媒體上已有討論指出,一些使用者正轉向 Claude Code,部分原因是 Cursor 的定價、上下文遺失問題或編輯器中心化的體驗。在此背景下,Composer 2 的推出對 Cursor 而言具有重要的戰略意義,Anysphere 期望透過更低廉的成本、顯著提升的效能以及與自家平台的深度整合,來證明其作為一個提供全面應用層服務的價值,而非僅僅是外部模型的包裝層。







