水務新創遇大型語言模型瓶頸自研驗證型AI解方

2026-03-19

商傳媒｜何映辰／台北報導

面對大型語言模型（LLMs）在專業領域的潛在缺陷，一家致力於海水淡化技術的美國新創公司Waterline Development，在經歷了數個月的研發延誤與成本損失後，決定轉向自行開發人工智慧（AI）解決方案。此舉凸顯了通用型AI模型在跨學科研究中，資訊可靠性與準確性不足的挑戰，特別是對於攸關關鍵決策的公用事業應用。

Waterline Development 創辦人兼執行長 Derek Bednarski（Derek Bednarski）今日透過電子郵件向媒體表示，該公司在嘗試運用大型語言模型進行材料科學研究時，「它們自信滿滿地給出錯誤答案，導致我們耗費數個月的時間」。

該公司當時正致力於開發一種「水電池」式的海水淡化產品，核心問題在於選擇碳布（carbon cloth）或鑄造碳電極（cast carbon electrodes）作為材料。Bednarski 解釋，儘管團隊並非該領域的博士，他們仍參考了相關學術論文，並使用 Grok 及 ChatGPT 等大型語言模型來驗證研究結果。然而，基於「商業可取得性」及學術論文中普遍使用的情況，他們選擇了碳布。結果發現，碳布存在導電性差、保水性影響離子移除效率及耐用度不足等問題，而這些問題在鑄造碳電極上並不存在。

Bednarski 指出：「雖然我們並未完全依賴大型語言模型，但它們確實顯著影響了我們的研究。」他續稱，大型語言模型會從不同論文與領域中選取統計數據，並以看似合理的方式將其拼湊組合。最終，Waterline Development 耗費了四個月時間及約二十萬美元（約新台幣六百四十萬元），才證實碳布材料無法擴展至試點規模以外的應用，而鑄造碳電極才是更優的選擇。

Waterline Development 認為，商用大型語言模型不適用於跨學科研究，因為這類研究需要整合多個領域的專業知識。該公司在一份白皮書中解釋，現有的人工智慧模型難以可靠地達成此目標，它們在多步驟的複雜推理下容易產生「幻覺」（hallucinate），並在問題跨越不同領域界限時，給出看似合理但實際上錯誤的答案，這不僅浪費時間，更可能毒害關鍵決策。

為了解決此一問題，Waterline Development 開發出 Rozum，一個多模型推理系統。Rozum 的名稱源自斯拉夫語中的「理性」，目前已成為 Bednarski 旗下的一家獨立 AI 新創公司。這個系統的運作方式是平行操作多種人工智慧模型，並透過一個驗證層來整合及驗證其答案。Rozum 綜合運用商業模型、開源模型及領域專用模型，每個模型處理查詢時，會使用可執行驗證並產生確定性結果的工具，為答案提供依據。

該系統特設的驗證層，旨在偵測並修正錯誤、幻覺、不實陳述、計算錯誤及偽造引用。根據白皮書內容，Rozum 能夠從一系列零散的真實資訊中，推導出正確答案，即使單一模型未能掌握完整且正確的資訊。

Bednarski 強調，Rozum 的目標並非讓大型語言模型適用於橋樑建設等關鍵工程，而是賦能研究人員、工程師及科學家，使其能更有效地完成工作。他表示，該系統專注於確定性工具的實施，例如針對化學領域的 RDKit，讓工程師、科學家和分析師能以其熟悉的領域格式，直接驗證輸出結果。

Rozum 透過確定性驗證流程（如程式碼執行複製）來排除所有模型在不同時間都可能出現的幻覺現象。儘管 Rozum 可能需要數分鐘甚至數小時來生成回應，遠超 Gemini 3.1 Pro 或 GPT 5.4 等商用 AI 模型，因此不適合即時對話或高頻率的通用查詢。但 Bednarski 指出，對於高風險決策，如數百萬美元的太陽能投資或分配數月工程時間的研究優先順序等，客戶更看重智慧與準確性，而非成本，這證明了 Rozum 的價值。Rozum 在「人類最後一考」（Humanity’s Last Exam）基準測試中，表現優於 GPT-4、Grok 4 及 Gemini 3.1 Pro，多數類別的得分高出數個百分點。

Bednarski 透露，當他們將一千個博士級別的基準問題輸入該系統時，驗證層在 76.2% 的通用模型回應中標記出無根據的主張，且 21.3% 的引用來源無法被確認，僅有 5.5% 的問題能達成所有模型的一致共識。這個共識率突顯了人工智慧模型回應變數之高，以及單純依賴 AI 的不足。Rozum 已於上週首次亮相，目前正透過候補名單提供服務。