通用型AI會計能力測試出爐最佳模型準確度未達八成

2026-03-19

商傳媒｜何映辰／台北報導

會計企業資源規劃（ERP）軟體供應商DualEntry近期針對多款主流通用型人工智慧（AI）模型進行會計工作流程測試，結果顯示，即使表現最佳的模型，其準確度也僅達到77.3%，大部分模型得分皆未達65%。這項測試結果揭示了通用型AI在處理複雜會計事務上的局限性，可能讓八成以上信任AI提供財務建議的民眾感到意外。

DualEntry聯合創辦人Santiago Nestares指出，大型語言模型是強大的草稿工具，但財務運作仰賴經過驗證的記錄，而非草稿。他強調，這項基準測試表明，AI確實能加速會計工作流程，但若缺乏系統級的控制與驗證機制，錯誤可能迅速擴散並影響財務報告的準確性。

這項研究共測試了包含ChatGPT、Claude、Gemini等19種不同的通用型AI模型，涵蓋了101種代表核心會計功能的應用場景。測試項目範圍廣泛，包括交易分類、分錄建立、應付帳款與應收帳款管理、銀行對帳、財務報告、月結作業以及概念性會計知識。DualEntry的軟體工程師Ignacio Brasca舉例說明，測試會要求AI針對一筆支付予供應商的銀行交易，判斷其應歸類的會計科目與類型。

測試結果顯示，由OpenAI開發的ChatGPT 5.4模型以77.3%的準確度位居榜首，其次是Gemini 3.1 Pro，得分為66%；Z.ai GLM-5則獲得65.3%。大多數模型的準確度皆低於65%，而像GPT-4這樣的舊版模型，其準確度甚至低至19.8%。

進一步分析測試結果發現，儘管沒有任何一款模型在所有會計任務上表現卓越，但它們仍各有擅長與不足。例如，在回憶與通用會計準則（GAAP）或國際財務報導準則（IFRS）相關的知識性問題時，多數模型得分頗高。然而，一旦涉及創建結構化記錄，如需要精確借貸分錄的多行分錄建立，模型表現便顯著下滑。Brasca表示，模型在交易分類任務上可達92%的準確度，但在分錄建立上卻可能驟降至三至四成。他對於許多AI模型在處理此類任務時的糟糕表現感到驚訝。

Brasca分析AI模型表現不佳的原因主要有三：首先，通用型模型訓練於廣泛的網路數據，缺乏深入的會計準則、工作流程和邊際案例領域知識；其次，它們對外部工具和數據的訪問受限，不像專業的企業會計AI能與資料庫、計算器或檢索系統整合；再者，專門的會計系統通常會針對財務數據集和真實會計情境進行微調，這賦予它們在特定任務上明顯的優勢。

這項研究的目的是闡明通用型AI模型在會計應用上的實際能力，以協助會計專業人士更準確地評估其適用性。DualEntry的測試模式旨在模擬會計協作軟體在實務中的運作方式，強調AI必須能創建帶有正確科目、金額及明細的結構化財務記錄，而非僅生成文字。對於正積極探索AI技術應用於會計領域的財務人員而言，這份報告凸顯了通用型AI的輔助性質，以及專業判斷與系統驗證在未來會計工作中的核心地位。