合作媒體

通用型AI會計能力測試出爐 最佳模型準確度未達八成

商傳媒|何映辰/台北報導

會計企業資源規劃(ERP)軟體供應商DualEntry近期針對多款主流通用型人工智慧(AI)模型進行會計工作流程測試,結果顯示,即使表現最佳的模型,其準確度也僅達到77.3%,大部分模型得分皆未達65%。這項測試結果揭示了通用型AI在處理複雜會計事務上的局限性,可能讓八成以上信任AI提供財務建議的民眾感到意外。

DualEntry聯合創辦人Santiago Nestares指出,大型語言模型是強大的草稿工具,但財務運作仰賴經過驗證的記錄,而非草稿。他強調,這項基準測試表明,AI確實能加速會計工作流程,但若缺乏系統級的控制與驗證機制,錯誤可能迅速擴散並影響財務報告的準確性。

這項研究共測試了包含ChatGPT、Claude、Gemini等19種不同的通用型AI模型,涵蓋了101種代表核心會計功能的應用場景。測試項目範圍廣泛,包括交易分類、分錄建立、應付帳款與應收帳款管理、銀行對帳、財務報告、月結作業以及概念性會計知識。DualEntry的軟體工程師Ignacio Brasca舉例說明,測試會要求AI針對一筆支付予供應商的銀行交易,判斷其應歸類的會計科目與類型。

測試結果顯示,由OpenAI開發的ChatGPT 5.4模型以77.3%的準確度位居榜首,其次是Gemini 3.1 Pro,得分為66%;Z.ai GLM-5則獲得65.3%。大多數模型的準確度皆低於65%,而像GPT-4這樣的舊版模型,其準確度甚至低至19.8%。

進一步分析測試結果發現,儘管沒有任何一款模型在所有會計任務上表現卓越,但它們仍各有擅長與不足。例如,在回憶與通用會計準則(GAAP)或國際財務報導準則(IFRS)相關的知識性問題時,多數模型得分頗高。然而,一旦涉及創建結構化記錄,如需要精確借貸分錄的多行分錄建立,模型表現便顯著下滑。Brasca表示,模型在交易分類任務上可達92%的準確度,但在分錄建立上卻可能驟降至三至四成。他對於許多AI模型在處理此類任務時的糟糕表現感到驚訝。

Brasca分析AI模型表現不佳的原因主要有三:首先,通用型模型訓練於廣泛的網路數據,缺乏深入的會計準則、工作流程和邊際案例領域知識;其次,它們對外部工具和數據的訪問受限,不像專業的企業會計AI能與資料庫、計算器或檢索系統整合;再者,專門的會計系統通常會針對財務數據集和真實會計情境進行微調,這賦予它們在特定任務上明顯的優勢。

這項研究的目的是闡明通用型AI模型在會計應用上的實際能力,以協助會計專業人士更準確地評估其適用性。DualEntry的測試模式旨在模擬會計協作軟體在實務中的運作方式,強調AI必須能創建帶有正確科目、金額及明細的結構化財務記錄,而非僅生成文字。對於正積極探索AI技術應用於會計領域的財務人員而言,這份報告凸顯了通用型AI的輔助性質,以及專業判斷與系統驗證在未來會計工作中的核心地位。