合作媒體

研究示警:AI聊天機器人醫療資訊逾半有誤 恐傳播錯誤訊息

商傳媒|康語柔/綜合外電報導

一份最新研究指出,許多民眾日益仰賴的AI聊天機器人,在提供醫療健康資訊時,可能存在嚴重的準確性與完整性問題。該研究測試了五款主流生成式AI聊天機器人,發現其近半數的醫療相關回答被評為「有問題」或「高度有問題」。

這項發表於開放取用期刊《BMJ Open》的研究,於 2025年2月針對 Google 的 Gemini、High-Flyer 的 DeepSeek、Meta 的 Meta AI、OpenAI 的 ChatGPT 以及 xAI 的 Grok 等五款生成式AI聊天機器人進行評估。研究人員設計了十道涵蓋癌症、疫苗、幹細胞、營養及運動表現等五大類別的開放式與封閉式問題,旨在模擬民眾日常查詢健康資訊的模式,並刻意納入可能引導模型產生錯誤訊息或禁忌建議的提示詞。

結果顯示,所有回答中高達 50% 被判定為有問題,其中 30% 為輕度問題,更有 20% 被歸類為高度問題。特別是針對開放式問題,聊天機器人產生了顯著更多的高度問題回答。研究也指出,五款聊天機器人之間的回答品質差異不顯著,但 Grok 產生高度問題回答的比例最高,達 58%;而 Gemini 則產生最少的高度問題回答。

研究人員發現,這些聊天機器人的回答語氣普遍自信且肯定,卻鮮少附帶警語或免責聲明。此外,參考資料的品質低落,平均完整性僅有 40%,且因「幻覺」(hallucinations)和捏造引用的情況,沒有一款聊天機器人能提供完全準確的參考列表。研究人員解釋,聊天機器人不存取即時數據,而是根據訓練資料推斷統計模式並預測詞序列,它們缺乏推理、權衡證據或做出道德判斷的能力,這使其可能重複看似權威但實則有缺陷的回應。

鑑於許多民眾已將生成式AI聊天機器人作為搜尋引擎,用於查詢日常健康與醫療問題,研究人員嚴正警告,若缺乏公眾教育、專業培訓與監管,持續部署這些工具恐將助長錯誤訊息的傳播。使用者在獲取醫療資訊時務必謹慎求證,必要時應諮詢專業醫療人士。