AI醫學影像分割挑戰：無真實標籤下模型性能評估新框架

2026-05-15

商傳媒｜責任編輯／綜合外電報導

面對大量缺乏精細標註的公開醫學影像資料集，一項最新研究提出實用框架，旨在比較人工智慧（AI）解剖分割模型在無真實標籤情況下的性能。這項研究已發表於《Journal of Medical Imaging》，為醫學影像AI領域專家提供了新的評估思路。

現行大多數公開醫學影像資料集，例如用於癌症研究的國家肺部篩檢試驗（National Lung Screening Trial, NLST），雖包含數千筆掃描影像，但通常缺乏器官或骨骼的詳細標籤，使得基於準確度的傳統AI模型評估方法難以實施。為此，研究團隊採用「基於一致性而非準確性」的評估方式，透過分析不同模型在相同影像上的分割結果，找出其匯聚與分歧之處，藉此判斷結果的可靠性。

研究選取了六種廣泛使用的開源分割模型，包含兩版 TotalSegmentator、Auto3DSeg、MOOSE、MultiTalent 和 CADS。團隊將這些模型的輸出結果統一轉換為標準的 DICOM 分割格式，並利用通用醫學術語 SNOMED-CV 協調標籤，確保不同模型對於相同結構具有一致的顏色和識別符號。為利於視覺化檢閱，研究人員也擴展了兩款開源工具，將結果整合至網頁版的 OHIF Viewer 及桌面版的 3D Slicer 軟體中，讓使用者能方便地並排比較多模型針對同一器官的分割成果。

研究分析了來自四名 NLST 參與者的 18 張胸部電腦斷層掃描（CT）影像，重點關注 24 個解剖結構，包括肺葉、心臟、肋骨和胸椎等。結果顯示，肺部分割的一致性最高，邊界差異微小，表明這項任務在低劑量篩檢CT影像中已趨於成熟。心臟分割最初僅呈現中度一致性，但在排除一個定義範圍較窄的模型後，其餘工具的一致性顯著提升。然而，針對肋骨和胸椎的分割則出現較嚴重問題，六個模型中有四個頻繁出錯，例如將鄰近骨骼合併或標記錯誤的椎骨。研究發現，其中兩個經由不同資料訓練的模型，在這些複雜結構上表現出更高的一致性與解剖完整性。

這項研究強調，即使是備受推崇的AI工具，也可能因共享訓練資料而出現系統性錯誤。同時，它證明即使缺乏真實標籤，仍可透過標準化、量化一致性測量和針對性視覺檢閱相結合的方式，進行有意義的模型評估。所有相關軟體、映射資料和範例資料集均已開源。隨著研究人員日益依賴AI生成的標註來分析大規模資料集，此類工具將有助於在缺乏完美參考答案的情況下，做出基於證據的明智決策。