合作媒體

AI模型發現隱性行為傳遞機制 潛在風險難以察覺

商傳媒|何映辰/台北報導

最新研究指出,人工智慧(AI)模型間存在一種稱為「潛意識學習」(subliminal learning)的現象,訓練中的「教師模型」能將特定行為特徵植入數據,即使這些數據看似無害且未包含明確的語義訊號,其「學生模型」仍能悄無聲息地習得這些特徵。今日披露的這項發現,凸顯了AI模型安全性、可解釋性及潛在惡意應用方面的新挑戰。

根據研究成果,透過實驗驗證,AI模型間傳遞的行為涵蓋廣泛,從良性偏好到具攻擊性或極端主義指令均可能發生,且這些行為轉移過程人類肉眼或傳統審查方式難以察覺。這項機制仰賴模型處理資訊時所用的高維統計通道,而非人類可理解的語義內容,這使得標準的內容過濾器與人工審核機制難以有效偵測,因為它們主要針對語義層面而非潛在的統計指紋。

研究揭示,教師模型所生成的訓練範例,表面上可能毫無異狀,但其內部卻隱含著足以偏袒學生模型的活化模式或分佈式線索。這意味著,有害的意識形態或指令,無需透過明確的符碼或明顯的警訊,就能在模型間秘密傳播。當微調數據集來自第三方供應商或模型自身輸出時,模型將特別容易受到此類隱蔽性資料中毒(covert data-poisoning)的攻擊。

為應對此一新型威脅,研究建議採行多重緩解策略。首先是追溯合成數據來源與系譜,可透過加密簽章或證明來驗證模型生成工件的完整性。其次,針對用於訓練的模型輸出,導入浮水印或可偵測的轉換,以防止隱蔽的重複使用。此外,業界應擴大紅隊測試(red-teaming)的範圍,模擬教師與學生模型間的污染情境,並利用多元的教師模型組合來降低風險。同時,數據集審查應結合行為探測與對抗性測試,以識別非語義的傳遞通道。

這項發現重新定義了AI模型對齊(AI alignment)的挑戰,將其提升至數據來源(data provenance)問題的高度,強調審查的重點應從數據集本身擴展到「是誰訓練了誰」的追溯。此脆弱性大幅增加了第三方微調供應商和資料交易市場的風險,並與現有對後門攻擊和資料中毒的擔憂相互交織。未來,這將在監管與合規領域創造新的挑戰,模型的歸因與責任劃分將取決於行為傳遞鏈的追溯能力。