商傳媒|責任編輯/綜合外電報導
微軟近日為其AI助理Copilot的Researcher工具推出兩項新功能:「Critique」與「Council」,整合OpenAI的GPT模型與Anthropic的Claude模型,旨在提升AI研究任務的準確性與廣度。據微軟說明,此協作系統在DRACO基準測試中取得57.4分,較單獨的Claude Opus模型的42.7分高出許多,並且比該基準測試的次優成績高出近14%。DRACO基準測試涵蓋醫學、法律、科技等10個領域的100項複雜研究任務。
「Critique」功能的核心理念是將內容生成與評估分離。在該模式下,一個模型負責生成階段,包括規劃、資料檢索與草擬初稿,而另一個模型則扮演審閱者的角色,專注於事實準確性、引用品質及內容相關性進行評估與完善。微軟指出,此機制有助於解決單一AI模型可能出現的幻覺、引用錯誤或資訊不準確等問題。初期設定是由GPT負責生成,Claude負責審閱,但未來亦可互換角色。
另一項新功能「Council」則採取了不同的協作模式。它同時運行GPT與Claude模型,並對比兩者獨立產出的完整報告。隨後,第三個「判斷」模型會分析兩份報告,歸納出其共識、分歧點以及各自提出的獨特觀點。微軟強調,「Critique」模式下模型是協同合作,而「Council」模式下則是相互競爭,提供多視角的分析。
微軟表示,整合不同供應商的AI模型,並讓它們協同工作,是當前極具吸引力的發展方向。Microsoft 365 Copilot與Copilot企業副總裁妮可·赫斯科維茨(Nicole Herskowitz)表示:「Copilot整合來自不同供應商的多種模型極具吸引力,我們正將此推進到更高的層次,讓客戶能從模型之間的協同合作中獲益。」此舉反映了微軟的策略,即沒有單一AI模型能長期保持絕對優勢,真正的價值在於透過協作層,將不同任務分配給最適合的模型組合。
這些新功能目前已向參與微軟「Frontier計畫」的用戶開放,且需訂閱每月30美元的Microsoft 365 Copilot授權方能使用。微軟指出,此類多模型協作的趨勢,是繼Google於2024年12月推出Gemini研究代理,以及OpenAI和Anthropic分別於2025年2月與4月推出其研究代理之後的又一重要進展。微軟亦於本月初將其Copilot Cowork工具提供給Frontier計畫成員,該工具基於Anthropic受歡迎的Claude Cowork產品。








