合作媒體

賓夕法尼亞州立大學研究:AI回覆健康諮詢準確度近76%

商傳媒|康語柔/綜合外電報導

賓夕法尼亞州立大學的研究團隊近期一項研究指出,人工智慧(AI)驅動的聊天機器人在回答日常健康相關問題時,準確度可達約 76%。該研究深入探討了AI在醫療諮詢領域的潛力與風險,特別是從一般網路用戶的角度,評估AI作為現代「症狀查詢器」的表現。

這項研究共生成了 212 個健康相關問題,涵蓋了真實與假設情況,並結合了病患與臨床醫生的視角。研究團隊向四款先進的大型語言模型(LLM)進行查詢,包括 ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro 與 Llama3-8b。隨後,九位具備專科醫師執照的醫生,依據臨床準確性與潛在危害,對這些LLM提供的治療建議及資訊進行了評估。

研究結果顯示,AI在婦產科、婦科及耳鼻喉科等領域提供了較高水準的正確資訊,且潛在風險最低。然而,在內科、神經科與皮膚科方面,AI系統面臨較大挑戰,表現出更多不準確之處及更高的潛在危害。此外,問題長度介於 60 至 250 個字元時,AI的回應準確度往往較高;對於高度專業或聚焦過窄的問題,AI系統則顯得力不從心。研究也發現,AI模型的錯誤率超過 20%,約是人類醫師的兩倍。

研究團隊曾試圖利用醫學教科書、臨床指南與同儕審查文獻重新訓練基礎LLM,但醫療專業人員與受訓者普遍偏好原始的 Gemini 和 Llama 模型的回應,而非經過重新訓練的版本。不過,針對 ChatGPT 模型,研究並未觀察到基礎模型與增強模型之間有統計上顯著的偏好差異。

研究共同作者暨執業醫師 Jennifer L Kraschnewski 博士表示:「AI代表著一股轉型力量,有潛力增強臨床醫生的能力,而非取代人類醫師。」她指出,AI可以透過提供快速的證據摘要、鑑別診斷建議及決策支援,來「提升」臨床醫生的專業技能。這項研究已於 2026 年 ACM Fairness, Accountability, and Transparency (FAccT) 會議上發表。

研究總結,AI在醫療診斷與病患照護方面蘊藏巨大潛力,前提是必須負責任地引導其應用。同時,AI也存在不可忽視的風險,尤其是在缺乏適當臨床指導的情況下使用。因此,提升大眾的教育程度與數位素養,對於理解AI在醫療診斷中的優勢與劣勢極為重要。