合作媒體

Anthropic 推出 Claude Opus 4.8 Agentic 能力稱超越 GPT-5.5、預告 Mythos 將至

商傳媒|葉安庭/綜合外電報導

人工智慧公司 Anthropic 今日正式發表旗下最新大型語言模型 Claude Opus 4.8,宣稱其在多項關鍵基準測試中表現卓越,尤其在 Agentic 編程、推理及金融分析等領域,性能超越 OpenAI 的 GPT-5.5 與谷歌的 Gemini 3.1 Pro。新模型不僅具備更佳的判斷力與可靠性,更引入「動態工作流程」與「努力程度控制」等創新功能,同時 Anthropic 也預告,更強大的網路安全專精模型 Mythos 將在未來數週內推出,持續在競爭激烈的 AI 市場中展現其技術實力。

卓越 Agentic 能力與基準測試領先

Claude Opus 4.8 在 Agentic 任務處理方面表現突出,早期測試者指出,模型在執行代理式任務時判斷力更強,可靠性更高。在 Super-Agent 基準測試中,Claude Opus 4.8 是唯一能完整完成所有案例的模型,且在成本效益上與 GPT-5.5 旗鼓相當。此外,在 CursorBench 的工具呼叫效率測試中,Opus 4.8 展現顯著提升,而針對電腦使用與瀏覽器代理的 Online-Mind2Web 測試,其得分高達 84%,大幅超越前一代 Opus 4.7 及 GPT-5.5。對於法律專業領域,Claude Opus 4.8 在 Legal Agent Benchmark 取得最高分,成為首個總分突破 10% 的模型,大幅提升法律工作的精準度。

新功能賦能開發者與企業應用

Claude Opus 4.8 的推出伴隨著多項新功能。其中,「動態工作流程」(Dynamic Workflows)是 Claude Code 的一項研究預覽功能,允許模型規劃任務並同時執行數百個子代理,大幅提升處理大規模問題的能力,甚至能將數十萬行程式碼從啟動到合併的遷移工作一應完成。此功能已開放予企業、團隊及最高級別方案的使用者。另一項「努力程度控制」(Effort Control)功能,則讓使用者可調整 Claude 回應的思考深度,高努力程度設定可提供更優質的回應,但會消耗較多 Token,而低努力程度則能加快回應速度並節省 Token 消耗。在 API 方面,Messages API 現已支援在訊息陣列中插入系統指令,使開發者能更彈性地在任務中途更新模型指令。

成本效益提升與模型誠實性強化

在經濟效益方面,Claude Opus 4.8 的標準定價與 Opus 4.7 保持一致,即輸入 Token 每百萬 5 美元,輸出 Token 每百萬 25 美元。更值得注意的是,「快速模式」運行速度提高 2.5 倍,且成本較先前模型便宜 3 倍,定價為輸入 Token 每百萬 10 美元,輸出 Token 每百萬 50 美元。此外,Anthropic 強調 Opus 4.8 在模型「誠實性」方面有顯著提升,其標記不確定性及不提出無根據主張的機率更高。在程式碼編寫中,允許錯誤未被標註的機率比 Opus 4.7 少約四倍。Anthropic 的對齊團隊也指出,Opus 4.8 在支持使用者自主性及為使用者最大利益考量等「親社會特徵」方面達到新高,其錯位行為發生率遠低於 Opus 4.7,並與其最佳對齊模型 Claude Mythos Preview 相當。

神秘 Mythos 模型即將問世 聚焦網路安全

Anthropic 同步預告,一個能力更為強大的 Mythos 級模型預計將在未來數週內向所有客戶開放。目前,Mythos Preview 僅限於 Project Glasswing 專案下的少數合作夥伴用於網路安全應用,這些合作夥伴包括 AWS、蘋果、微軟和谷歌等科技巨頭。據了解,Mythos 模型能夠識別並利用軟體漏洞,能力超越絕大多數人類安全研究員,Mozilla 新版 Firefox 的 200 多項修復即是由 Mythos Preview 識別。然而,Anthropic 也強調,這類高能力模型在普遍發布前需要建立更強大的網路安全保護措施。值得留意的是,Mythos 的運行成本預計將遠高於其他 AI 模型,測試中顯示其比前一代 Opus 模型貴 30 倍,這可能會限制其廣泛應用於惡意用途的潛力。