Anthropic 推出 Claude Opus 4.8 Agentic 能力稱超越 GPT-5.5、預告 Mythos 將至

2026-05-29

Anthropic 推出 Claude Opus 4.8 Agentic 能力稱超越 GPT-5.5、預告 Mythos 將至

商傳媒｜葉安庭／綜合外電報導

人工智慧公司 Anthropic 今日正式發表旗下最新大型語言模型 Claude Opus 4.8，宣稱其在多項關鍵基準測試中表現卓越，尤其在 Agentic 編程、推理及金融分析等領域，性能超越 OpenAI 的 GPT-5.5 與谷歌的 Gemini 3.1 Pro。新模型不僅具備更佳的判斷力與可靠性，更引入「動態工作流程」與「努力程度控制」等創新功能，同時 Anthropic 也預告，更強大的網路安全專精模型 Mythos 將在未來數週內推出，持續在競爭激烈的 AI 市場中展現其技術實力。

卓越 Agentic 能力與基準測試領先

Claude Opus 4.8 在 Agentic 任務處理方面表現突出，早期測試者指出，模型在執行代理式任務時判斷力更強，可靠性更高。在 Super-Agent 基準測試中，Claude Opus 4.8 是唯一能完整完成所有案例的模型，且在成本效益上與 GPT-5.5 旗鼓相當。此外，在 CursorBench 的工具呼叫效率測試中，Opus 4.8 展現顯著提升，而針對電腦使用與瀏覽器代理的 Online-Mind2Web 測試，其得分高達 84%，大幅超越前一代 Opus 4.7 及 GPT-5.5。對於法律專業領域，Claude Opus 4.8 在 Legal Agent Benchmark 取得最高分，成為首個總分突破 10% 的模型，大幅提升法律工作的精準度。

新功能賦能開發者與企業應用

Claude Opus 4.8 的推出伴隨著多項新功能。其中，「動態工作流程」（Dynamic Workflows）是 Claude Code 的一項研究預覽功能，允許模型規劃任務並同時執行數百個子代理，大幅提升處理大規模問題的能力，甚至能將數十萬行程式碼從啟動到合併的遷移工作一應完成。此功能已開放予企業、團隊及最高級別方案的使用者。另一項「努力程度控制」（Effort Control）功能，則讓使用者可調整 Claude 回應的思考深度，高努力程度設定可提供更優質的回應，但會消耗較多 Token，而低努力程度則能加快回應速度並節省 Token 消耗。在 API 方面，Messages API 現已支援在訊息陣列中插入系統指令，使開發者能更彈性地在任務中途更新模型指令。

成本效益提升與模型誠實性強化

在經濟效益方面，Claude Opus 4.8 的標準定價與 Opus 4.7 保持一致，即輸入 Token 每百萬 5 美元，輸出 Token 每百萬 25 美元。更值得注意的是，「快速模式」運行速度提高 2.5 倍，且成本較先前模型便宜 3 倍，定價為輸入 Token 每百萬 10 美元，輸出 Token 每百萬 50 美元。此外，Anthropic 強調 Opus 4.8 在模型「誠實性」方面有顯著提升，其標記不確定性及不提出無根據主張的機率更高。在程式碼編寫中，允許錯誤未被標註的機率比 Opus 4.7 少約四倍。Anthropic 的對齊團隊也指出，Opus 4.8 在支持使用者自主性及為使用者最大利益考量等「親社會特徵」方面達到新高，其錯位行為發生率遠低於 Opus 4.7，並與其最佳對齊模型 Claude Mythos Preview 相當。

神秘 Mythos 模型即將問世聚焦網路安全

Anthropic 同步預告，一個能力更為強大的 Mythos 級模型預計將在未來數週內向所有客戶開放。目前，Mythos Preview 僅限於 Project Glasswing 專案下的少數合作夥伴用於網路安全應用，這些合作夥伴包括 AWS、蘋果、微軟和谷歌等科技巨頭。據了解，Mythos 模型能夠識別並利用軟體漏洞，能力超越絕大多數人類安全研究員，Mozilla 新版 Firefox 的 200 多項修復即是由 Mythos Preview 識別。然而，Anthropic 也強調，這類高能力模型在普遍發布前需要建立更強大的網路安全保護措施。值得留意的是，Mythos 的運行成本預計將遠高於其他 AI 模型，測試中顯示其比前一代 Opus 模型貴 30 倍，這可能會限制其廣泛應用於惡意用途的潛力。