商傳媒|責任編輯/綜合外電報導
面對大量缺乏精細標註的公開醫學影像資料集,一項最新研究提出實用框架,旨在比較人工智慧(AI)解剖分割模型在無真實標籤情況下的性能。這項研究已發表於《Journal of Medical Imaging》,為醫學影像AI領域專家提供了新的評估思路。
現行大多數公開醫學影像資料集,例如用於癌症研究的國家肺部篩檢試驗(National Lung Screening Trial, NLST),雖包含數千筆掃描影像,但通常缺乏器官或骨骼的詳細標籤,使得基於準確度的傳統AI模型評估方法難以實施。為此,研究團隊採用「基於一致性而非準確性」的評估方式,透過分析不同模型在相同影像上的分割結果,找出其匯聚與分歧之處,藉此判斷結果的可靠性。
研究選取了六種廣泛使用的開源分割模型,包含兩版 TotalSegmentator、Auto3DSeg、MOOSE、MultiTalent 和 CADS。團隊將這些模型的輸出結果統一轉換為標準的 DICOM 分割格式,並利用通用醫學術語 SNOMED-CV 協調標籤,確保不同模型對於相同結構具有一致的顏色和識別符號。為利於視覺化檢閱,研究人員也擴展了兩款開源工具,將結果整合至網頁版的 OHIF Viewer 及桌面版的 3D Slicer 軟體中,讓使用者能方便地並排比較多模型針對同一器官的分割成果。
研究分析了來自四名 NLST 參與者的 18 張胸部電腦斷層掃描(CT)影像,重點關注 24 個解剖結構,包括肺葉、心臟、肋骨和胸椎等。結果顯示,肺部分割的一致性最高,邊界差異微小,表明這項任務在低劑量篩檢CT影像中已趨於成熟。心臟分割最初僅呈現中度一致性,但在排除一個定義範圍較窄的模型後,其餘工具的一致性顯著提升。然而,針對肋骨和胸椎的分割則出現較嚴重問題,六個模型中有四個頻繁出錯,例如將鄰近骨骼合併或標記錯誤的椎骨。研究發現,其中兩個經由不同資料訓練的模型,在這些複雜結構上表現出更高的一致性與解剖完整性。
這項研究強調,即使是備受推崇的AI工具,也可能因共享訓練資料而出現系統性錯誤。同時,它證明即使缺乏真實標籤,仍可透過標準化、量化一致性測量和針對性視覺檢閱相結合的方式,進行有意義的模型評估。所有相關軟體、映射資料和範例資料集均已開源。隨著研究人員日益依賴AI生成的標註來分析大規模資料集,此類工具將有助於在缺乏完美參考答案的情況下,做出基於證據的明智決策。








