賓夕法尼亞州立大學研究：AI回覆健康諮詢準確度近76%

2026-05-29

商傳媒｜康語柔／綜合外電報導

賓夕法尼亞州立大學的研究團隊近期一項研究指出，人工智慧（AI）驅動的聊天機器人在回答日常健康相關問題時，準確度可達約 76%。該研究深入探討了AI在醫療諮詢領域的潛力與風險，特別是從一般網路用戶的角度，評估AI作為現代「症狀查詢器」的表現。

這項研究共生成了 212 個健康相關問題，涵蓋了真實與假設情況，並結合了病患與臨床醫生的視角。研究團隊向四款先進的大型語言模型（LLM）進行查詢，包括 ChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro 與 Llama3-8b。隨後，九位具備專科醫師執照的醫生，依據臨床準確性與潛在危害，對這些LLM提供的治療建議及資訊進行了評估。

研究結果顯示，AI在婦產科、婦科及耳鼻喉科等領域提供了較高水準的正確資訊，且潛在風險最低。然而，在內科、神經科與皮膚科方面，AI系統面臨較大挑戰，表現出更多不準確之處及更高的潛在危害。此外，問題長度介於 60 至 250 個字元時，AI的回應準確度往往較高；對於高度專業或聚焦過窄的問題，AI系統則顯得力不從心。研究也發現，AI模型的錯誤率超過 20%，約是人類醫師的兩倍。

研究團隊曾試圖利用醫學教科書、臨床指南與同儕審查文獻重新訓練基礎LLM，但醫療專業人員與受訓者普遍偏好原始的 Gemini 和 Llama 模型的回應，而非經過重新訓練的版本。不過，針對 ChatGPT 模型，研究並未觀察到基礎模型與增強模型之間有統計上顯著的偏好差異。

研究共同作者暨執業醫師 Jennifer L Kraschnewski 博士表示：「AI代表著一股轉型力量，有潛力增強臨床醫生的能力，而非取代人類醫師。」她指出，AI可以透過提供快速的證據摘要、鑑別診斷建議及決策支援，來「提升」臨床醫生的專業技能。這項研究已於 2026 年 ACM Fairness, Accountability, and Transparency (FAccT) 會議上發表。

研究總結，AI在醫療診斷與病患照護方面蘊藏巨大潛力，前提是必須負責任地引導其應用。同時，AI也存在不可忽視的風險，尤其是在缺乏適當臨床指導的情況下使用。因此，提升大眾的教育程度與數位素養，對於理解AI在醫療診斷中的優勢與劣勢極為重要。