Cursor Composer 2 AI 編碼模型亮相效能超越 Claude Opus

2026-03-20

Cursor Composer 2 AI 編碼模型亮相效能超越 Claude Opus

商傳媒｜責任編輯／綜合外電報導

舊金山人工智慧編碼平台 Cursor 的開發商 Anysphere，於日前宣布推出其最新內部編碼模型 Composer 2。這款模型已整合至 Cursor 的代理式 AI 編碼環境中，並展現出較前代產品顯著提升的效能，特別是在特定基準測試中，已超越市場主流的 Anthropic Claude Opus 4.6，但仍略遜於 OpenAI 的 GPT-5.4。此舉標誌著 Anysphere 在高價值 293 億美元的估值下，持續推動 AI 輔助程式開發工具的發展。

根據 Cursor 公布的數據，Composer 2 在多項獨立基準測試中表現亮眼。在 CursorBench 上，Composer 2 獲得 61.3 分，終端代理測試（Terminal-Bench 2.0）得分為 61.7，而多語言軟體工程基準（SWE-bench Multilingual）則達到 73.7 分。相較於今年二月推出的前代模型 Composer 1.5，其分別為 44.2、47.9 及 65.9 分，顯示 Composer 2 在品質上實現了大幅躍進。

更值得關注的是，在衡量 AI 代理在指令行終端介面中執行任務能力的 Terminal-Bench 2.0 測試中，Composer 2 以 61.7 分的成績，成功超越了 Claude Opus 4.6 的 58.0 分，以及 Opus 4.5 的 52.1 分。然而，儘管表現出色，Composer 2 仍未能撼動 OpenAI GPT-5.4 的領先地位，後者在此項測試中獲得 75.1 分。Cursor 方面表示，此模型並非旨在全面超越所有競爭對手，而是將其效能提升至更具競爭力的水準。

除了性能提升，Composer 2 在成本效益方面也帶來顯著優勢。新版 Composer 2 標準模型的輸入和輸出代幣每百萬分別為 0.50 美元和 2.50 美元。同時，Cursor 也推出了速度更快、價格稍高的 Composer 2 Fast 版本，其每百萬輸入和輸出代幣成本分別為 1.50 美元和 7.50 美元，並將其設定為用戶的預設體驗。相較於 Composer 1.5，Composer 2 標準版在輸入和輸出代幣成本上均降低了約 86%，而 Composer 2 Fast 則便宜約 57%。此外，針對重複傳送相同代幣的快取讀取（cache-read）定價也同步調降，進一步提升了其經濟吸引力。

Composer 2 的核心賣點在於其「長週期代理式編碼」能力。Cursor 強調，此模型不僅是提供更佳的程式碼補齊，更旨在解決 AI 編碼領域中一個懸而未決的挑戰：如何讓 AI 在複雜、長期的開發流程中保持穩定可靠。這類流程可能包含閱讀程式碼儲存庫、決定修改內容、編輯多個檔案、執行指令、解釋錯誤並持續推進專案目標。

為此，Composer 2 採用了首次的連續預訓練與強化學習，使其具備了更強大的基礎，得以處理需數百項操作才能完成的長週期編碼任務。該模型擁有 20 萬個代幣的上下文視窗，並針對 Cursor 內部的工具使用、檔案編輯與終端機操作進行了優化，甚至採用了長週期任務的自我摘要技術。這意味著 Composer 2 已與 Cursor 的代理工具堆疊（包含語義程式碼搜尋、檔案搜尋、檔案編輯、殼層指令、瀏覽器控制及網路存取等）深度整合，能提供更全面且流暢的開發體驗。

儘管 Composer 2 在基準測試中展現出強勁實力，但其作為一個專為 Cursor 生態系統設計的模型，並未以通用型 API 形式獨立發布，這限制了其可應用範圍。對於希望將模型廣泛部署於多個外部工具與平台的團隊而言，這或許是一個考量點。然而，對於已深度使用 Cursor 作為主要開發環境的程式設計師來說，這種緊密整合帶來的價值可能超越單純的模型性能指標。

當前，AI 編碼領域的競爭日益激烈，主要 AI 模型開發商如 OpenAI 和 Anthropic 也正積極推出自家的編碼介面與代理工具（例如 OpenAI 的 Codex 和 Anthropic 的 Claude Code），這對 Cursor 這類中介平台構成了挑戰。社交媒體上已有討論指出，一些使用者正轉向 Claude Code，部分原因是 Cursor 的定價、上下文遺失問題或編輯器中心化的體驗。在此背景下，Composer 2 的推出對 Cursor 而言具有重要的戰略意義，Anysphere 期望透過更低廉的成本、顯著提升的效能以及與自家平台的深度整合，來證明其作為一個提供全面應用層服務的價值，而非僅僅是外部模型的包裝層。