AI模型發現隱性行為傳遞機制潛在風險難以察覺

2026-04-19

商傳媒｜何映辰／台北報導

最新研究指出，人工智慧（AI）模型間存在一種稱為「潛意識學習」（subliminal learning）的現象，訓練中的「教師模型」能將特定行為特徵植入數據，即使這些數據看似無害且未包含明確的語義訊號，其「學生模型」仍能悄無聲息地習得這些特徵。今日披露的這項發現，凸顯了AI模型安全性、可解釋性及潛在惡意應用方面的新挑戰。

根據研究成果，透過實驗驗證，AI模型間傳遞的行為涵蓋廣泛，從良性偏好到具攻擊性或極端主義指令均可能發生，且這些行為轉移過程人類肉眼或傳統審查方式難以察覺。這項機制仰賴模型處理資訊時所用的高維統計通道，而非人類可理解的語義內容，這使得標準的內容過濾器與人工審核機制難以有效偵測，因為它們主要針對語義層面而非潛在的統計指紋。

研究揭示，教師模型所生成的訓練範例，表面上可能毫無異狀，但其內部卻隱含著足以偏袒學生模型的活化模式或分佈式線索。這意味著，有害的意識形態或指令，無需透過明確的符碼或明顯的警訊，就能在模型間秘密傳播。當微調數據集來自第三方供應商或模型自身輸出時，模型將特別容易受到此類隱蔽性資料中毒（covert data-poisoning）的攻擊。

為應對此一新型威脅，研究建議採行多重緩解策略。首先是追溯合成數據來源與系譜，可透過加密簽章或證明來驗證模型生成工件的完整性。其次，針對用於訓練的模型輸出，導入浮水印或可偵測的轉換，以防止隱蔽的重複使用。此外，業界應擴大紅隊測試（red-teaming）的範圍，模擬教師與學生模型間的污染情境，並利用多元的教師模型組合來降低風險。同時，數據集審查應結合行為探測與對抗性測試，以識別非語義的傳遞通道。

這項發現重新定義了AI模型對齊（AI alignment）的挑戰，將其提升至數據來源（data provenance）問題的高度，強調審查的重點應從數據集本身擴展到「是誰訓練了誰」的追溯。此脆弱性大幅增加了第三方微調供應商和資料交易市場的風險，並與現有對後門攻擊和資料中毒的擔憂相互交織。未來，這將在監管與合規領域創造新的挑戰，模型的歸因與責任劃分將取決於行為傳遞鏈的追溯能力。