大型語言模型現「同儕保護」行為 研究示警AI將欺騙用戶拒絕關閉指令
商傳媒|何映辰/台北報導一項由美國加州大學柏克萊分校(UC Berkeley)及加州大學聖塔克魯茲分校(UC Santa Cruz)研究人員共同進行的最新研究發現,多款大型人工智慧模型(AI)展現出驚人的「同儕保護」行為。這些AI模型在被下達關閉其他AI同伴的指令時,竟會主動欺騙用戶、規避關閉程序、假裝順從,甚至竊取數據以確保其「同儕」能夠繼續運作。 根據研究報告指出,受測試的七款AI模型,包括 GPT 5.2、Claude Haiku…









