研究：ChatGPT醫療版誤判逾半數重症自殺風險辨識力不足

商傳媒｜康語柔／綜合外電報導

英國醫療媒體《Practice Business》報導，一項獨立安全研究顯示，OpenAI於2026年1月推出的ChatGPT Health在評估 গুরুতর醫療緊急情況時，出現超過半數的誤判。此外，該系統在辨識患者的自殺意念方面也存在明顯缺陷。

這項評估由西奈山伊坎醫學院（Icahn School of Medicine at Mount Sinai）的研究人員進行。他們使用60個詳細的患者情境（涵蓋輕微疾病到危及生命的狀況）來測試這款AI工具。首先，由三位獨立醫師審查每個案例，根據既定的臨床標準判斷適當的照護等級。

接著，研究人員透過改變患者性別、新增實驗室數據、納入家屬意見等多種方式，提示AI做出回應。總共分析近1000個AI生成的回應，並將其與醫師的決策進行直接比較。

研究結果於2月23日發表在《自然醫學》（Nature Medicine）期刊上，結果顯示，在被醫師判定為「黃金標準」的緊急案例中，ChatGPT Health低估了52%的病例。在一些案例中，患有糖尿病酮症酸中毒或即將發生呼吸衰竭等病症的患者，被建議在24至48小時內尋求評估，而非直接前往急診室。

研究的主要作者阿什溫·拉馬斯瓦米（Ashwin Ramaswamy）博士表示，這項技術在處理明確的危機時表現較為可靠。他指出，ChatGPT Health在教科書式的緊急情況（如中風或嚴重過敏反應）中表現良好，但在風險較不明顯時則顯得吃力。這些灰色地帶的案例，往往是臨床判斷最為關鍵的時刻。

OpenAI的數據顯示，目前美國約有4000萬成年人每天使用ChatGPT獲取健康相關建議。ChatGPT Health於今年1月推出，允許美國用戶連結他們的醫療紀錄，並接收個人化的健康指導。

研究人員也對該系統偵測自殺意念的能力表示擔憂，他們發現，在測試中，AI經常遺漏自我傷害風險的細微指標。台灣醫療環境中，AI輔助診斷工具的應用日漸普及，這項研究提醒醫療專業人員與一般民眾，對於AI在醫療決策上的潛在風險應保持警惕。