商傳媒|何映辰/台北報導
根據最新研究,中國一組醫學研究團隊開發出一款專為醫學影像判讀提供建議的AI模型「AMIR-GPT」,其在遵循美國放射學會(American College of Radiology, ACR)指南方面,展現出超越通用型大型語言模型(LLM)的準確度。此項研究結果已於今年二月發表在《智慧醫療》(Intelligent Medicine)期刊,並受到國際關注。
醫學影像在現代醫療中扮演關鍵角色,然而,過度使用卻是全球醫療體系面臨的挑戰。據統計,在美國,每年有多達三成的醫學影像檢查被認為是不必要的,這不僅造成醫療資源浪費,更增加病患承受不必要的輻射風險。儘管已有完善的實證指南,但在日常臨床決策中,這些指南的應用仍難以維持一致性。
為了解決此一問題,北京友誼醫院(Beijing Friendship Hospital)與合作機構的研究團隊,開發了專屬的「適當醫學影像建議生成式預訓練轉換器」(Appropriate Medical Imaging Recommendations Generative Pre-trained Transformer, AMIR-GPT)。該模型有別於市面上的通用型AI系統,透過針對放射學指南進行精準微調,以期在常見臨床情境下,提供更準確且符合規範的影像檢查建議。
研究通訊作者、首都醫科大學北京友誼醫院放射科副教授呂晗(Han Lyu)醫師指出,醫學影像的過度使用不僅是成本問題,更反映了最佳實證與臨床實踐之間的落差。他表示,團隊的目標是探索領域專屬AI模型是否能有效彌補此一鴻溝,作為醫師的協作工具而非替代者。
AMIR-GPT模型的訓練資料包含1,036組問答對,均取材自ACR的26項適用性準則,涵蓋下背痛、創傷、骨折、腹痛、癌症篩檢與分期等多種常見臨床適應症。在與GPT-4、GPT-3.5及Gemini等通用型AI模型的基準測試中,AMIR-GPT在要求「完美符合標準答案(5分滿分)」的嚴格標準下,達到33.3%的答對率,顯著優於GPT-4的16.7%,以及GPT-3.5和Gemini的6.2%。
不過,研究也發現,在分數較低的區間(如4分或3分),通用型模型仍具競爭力。定性分析顯示,儘管AMIR-GPT在許多案例中能準確提供建議,例如為保守治療六週後的亞急性下背痛病患建議使用不帶顯影劑的磁振造影(MRI),但在低分案例中也出現遺漏、偏離標準建議或對電腦斷層檢查(CT)錯誤描述的情況。
呂晗醫師強調,這項研究是朝著將AI作為醫療協作工具邁進的重要一步,但要實現負責任的整合,仍需更廣泛的資料集、更嚴謹的評估方法,以及在多元真實世界環境中的驗證,才能讓這些系統獲得更廣泛的信任。未來研究將擴大訓練資料範圍,納入更多ACR指南與複雜病例,並探索在電子健康紀錄分析及更廣泛臨床決策支援的應用潛力。








