AI Agent 應用激增企業測試部署面臨資安與技術挑戰

2026-06-26

商傳媒｜林昭衡／綜合外電報導

隨著人工智慧技術持續演進，AI agent（代理式人工智慧）正迅速改變人機互動模式，不只在科技巨頭內部廣泛應用，更引發企業轉型，但其複雜性也帶來前所未有的測試挑戰與資安風險。

Agentic AI 崛起：OpenAI 內部實踐與企業需求

據《The Register》報導，OpenAI 內部員工已從傳統聊天機器人轉向使用 agentic AI 執行多步驟任務。這類主動式 AI 用戶在 2026 年上半年成長逾五倍，其中成長最快的用戶群體並非最初的軟體開發人員。報導指出，自 2026 年初以來，個人 Codex 用戶中，提交需耗時八小時以上任務的比例成長近十倍。非開發者使用 Codex 的情況也顯著增加，在 OpenAI 內部成長 12 倍，組織用戶成長 189 倍，個人用戶成長 137 倍。即使是法律與招募等非技術部門，也將 Codex 作為主要 AI 工具。然而，儘管 AI agent 的應用潛力巨大，其廣泛部署前仍面臨嚴峻挑戰。

AI Agent 測試挑戰：不同於傳統軟體

IBM 旗下 Institute for Business Value 的研究顯示，高達八成的企業資訊長（CIO）和技術長（CTO）表示，執行長已下達 AI 轉型指令，但僅有 11% 認為已為未來一年預期的 AI agent 規模部署做好準備。

AI agent 的測試與傳統軟體測試大相徑庭，因為其核心仰賴大型語言模型（LLM）的機率性特性。這意味著同樣的提示，可能在不同執行中產生不同的工具調用序列。若在多步驟任務初期出錯，問題可能要很晚才顯現。此外，具備機器學習能力的 agent 會隨時間演進，可能出現效能退化（regression）或漂移（drift）現象。

IBM 資訊長 Matt Lyteson 指出，企業面臨的挑戰是如何擴展能持續自主運作的 AI 系統，尤其在治理模式和架構設計未能跟上其快速、多變的環境時。測試 agentic AI 不僅要驗證最終答案，還須確保其推理路徑與中間輸出是否適切。不完善的測試會導致重大的營運與治理風險，特別是當 agent 執行多環節的推論與行動鏈時，任一環節的錯誤都可能被放大。

分層測試方法與關鍵衡量指標

為應對這些挑戰，有效的 AI agent 測試應分三層進行。首先是「元件測試」，用於評估單一獨立部件功能，如確認網路搜尋工具正確處理速率限制。其次是「軌跡測試」，評估 agent 從用戶指令到最終回應的完整推理路徑與中間輸出，以捕捉初期不易察覺的突發錯誤。最後是「端對端測試」，在接近真實世界的環境中評估 agent 執行任務的完整性與用戶體驗，例如多輪對話中的一致性。

衡量 AI agent 效能的關鍵指標除了任務完成的「成功率」與工具選擇的「準確度」，還包括從提交任務到最終輸出時間的「延遲」與以 Token 消耗量和 API 調用量計算的「成本」。此外，即使答案正確，若輸出過於冗長或邏輯不連貫，用戶體驗也會受損，因此「簡潔性」與「連貫性」也至關重要。IBM 指出，測試過程中常會運用「LLM-as-a-judge」技術，讓第二個、通常是更強大的 LLM 根據既定評分標準來評估 agent 的輸出品質，有效補充人工評估的規模限制。為模擬真實世界情境，一些公司也發布了環境模擬平台，協助開發者測試在實際環境中難以觸發的狀況。

開源 Agentic AI 帶來的資安威脅

與此同時，開放原始碼的 agentic AI 模型也帶來新的資安威脅。據《Axios》報導，中國智譜 AI（Z.ai）上週發布的 GLM-5.2 模型，其 agentic 能力已媲美 Claude Opus 4.8 和 OpenAI 的 GPT-5.5，但運行成本僅約一半。Graphistry, Inc. 和 Semgrep, Inc. 兩項獨立資安評估發現，GLM-5.2 在資安調查和漏洞發現的基準測試中，表現與美國領先模型不相上下。

Graphistry, Inc. 甚至推測 GLM-5.2 可能是 GPT-5.5 和 Claude Opus 4.8 的「非法蒸餾」版本。由於 GLM-5.2 是開放權重模型，使用者可直接下載修改、移除安全控制，或針對特定任務進行微調，且無需依賴商業供應商。資安公司 Armadin, Inc. 技術長 Travis Lanham 表示，攻擊者可以透過 GLM-5.2 在本地運行，量身打造攻擊方式，如產生釣魚郵件、詐騙腳本等惡意內容，且完全不被任何供應商或防禦方察覺，形成「菁英級人類攻擊」般的個人化攻擊。GuidePoint Security, LLC 的資安顧問 Jason Baker 則指出，駭客已在俄語論壇討論如何輕易破解 GLM-5.2 用於駭客任務。