商傳媒|何映辰/台北報導
面對大型語言模型(LLMs)在專業領域的潛在缺陷,一家致力於海水淡化技術的美國新創公司Waterline Development,在經歷了數個月的研發延誤與成本損失後,決定轉向自行開發人工智慧(AI)解決方案。此舉凸顯了通用型AI模型在跨學科研究中,資訊可靠性與準確性不足的挑戰,特別是對於攸關關鍵決策的公用事業應用。
Waterline Development 創辦人兼執行長 Derek Bednarski(Derek Bednarski)今日透過電子郵件向媒體表示,該公司在嘗試運用大型語言模型進行材料科學研究時,「它們自信滿滿地給出錯誤答案,導致我們耗費數個月的時間」。
該公司當時正致力於開發一種「水電池」式的海水淡化產品,核心問題在於選擇碳布(carbon cloth)或鑄造碳電極(cast carbon electrodes)作為材料。Bednarski 解釋,儘管團隊並非該領域的博士,他們仍參考了相關學術論文,並使用 Grok 及 ChatGPT 等大型語言模型來驗證研究結果。然而,基於「商業可取得性」及學術論文中普遍使用的情況,他們選擇了碳布。結果發現,碳布存在導電性差、保水性影響離子移除效率及耐用度不足等問題,而這些問題在鑄造碳電極上並不存在。
Bednarski 指出:「雖然我們並未完全依賴大型語言模型,但它們確實顯著影響了我們的研究。」他續稱,大型語言模型會從不同論文與領域中選取統計數據,並以看似合理的方式將其拼湊組合。最終,Waterline Development 耗費了四個月時間及約二十萬美元(約新台幣六百四十萬元),才證實碳布材料無法擴展至試點規模以外的應用,而鑄造碳電極才是更優的選擇。
Waterline Development 認為,商用大型語言模型不適用於跨學科研究,因為這類研究需要整合多個領域的專業知識。該公司在一份白皮書中解釋,現有的人工智慧模型難以可靠地達成此目標,它們在多步驟的複雜推理下容易產生「幻覺」(hallucinate),並在問題跨越不同領域界限時,給出看似合理但實際上錯誤的答案,這不僅浪費時間,更可能毒害關鍵決策。
為了解決此一問題,Waterline Development 開發出 Rozum,一個多模型推理系統。Rozum 的名稱源自斯拉夫語中的「理性」,目前已成為 Bednarski 旗下的一家獨立 AI 新創公司。這個系統的運作方式是平行操作多種人工智慧模型,並透過一個驗證層來整合及驗證其答案。Rozum 綜合運用商業模型、開源模型及領域專用模型,每個模型處理查詢時,會使用可執行驗證並產生確定性結果的工具,為答案提供依據。
該系統特設的驗證層,旨在偵測並修正錯誤、幻覺、不實陳述、計算錯誤及偽造引用。根據白皮書內容,Rozum 能夠從一系列零散的真實資訊中,推導出正確答案,即使單一模型未能掌握完整且正確的資訊。
Bednarski 強調,Rozum 的目標並非讓大型語言模型適用於橋樑建設等關鍵工程,而是賦能研究人員、工程師及科學家,使其能更有效地完成工作。他表示,該系統專注於確定性工具的實施,例如針對化學領域的 RDKit,讓工程師、科學家和分析師能以其熟悉的領域格式,直接驗證輸出結果。
Rozum 透過確定性驗證流程(如程式碼執行複製)來排除所有模型在不同時間都可能出現的幻覺現象。儘管 Rozum 可能需要數分鐘甚至數小時來生成回應,遠超 Gemini 3.1 Pro 或 GPT 5.4 等商用 AI 模型,因此不適合即時對話或高頻率的通用查詢。但 Bednarski 指出,對於高風險決策,如數百萬美元的太陽能投資或分配數月工程時間的研究優先順序等,客戶更看重智慧與準確性,而非成本,這證明了 Rozum 的價值。Rozum 在「人類最後一考」(Humanity’s Last Exam)基準測試中,表現優於 GPT-4、Grok 4 及 Gemini 3.1 Pro,多數類別的得分高出數個百分點。
Bednarski 透露,當他們將一千個博士級別的基準問題輸入該系統時,驗證層在 76.2% 的通用模型回應中標記出無根據的主張,且 21.3% 的引用來源無法被確認,僅有 5.5% 的問題能達成所有模型的一致共識。這個共識率突顯了人工智慧模型回應變數之高,以及單純依賴 AI 的不足。Rozum 已於上週首次亮相,目前正透過候補名單提供服務。








