商傳媒|林昭衡/綜合外電報導
【臺北訊】隨著人工智慧(AI)技術日新月異,其倫理道德層面的討論日益受到關注。國際商業機器公司(IBM)近期強調,區分人工智慧「聽起來具備倫理」與「實際具備道德推理能力」至關重要。這項區別對於評估大型語言模型(LLM)在關鍵決策中的應用,具有深遠影響。
根據《Quantum Zeitgeist》報導,IBM信任AI全球負責人Phaedra Boinodiris直言:「一個聽起來具備倫理的系統,與一個真正能進行倫理推理的系統,兩者截然不同。」她指出,目前的大型語言模型本質上是「昂貴的自動完成功能」,透過預測最可能出現的詞彙來生成內容,而非真正理解背後的原則。
Google DeepMind與人工智慧研究機構Anthropic的最新研究也支持此觀點。研究顯示,大型語言模型能令人信服地模仿倫理言詞,卻不具備真實的道德能力。例如,Anthropic研究人員分析了超過30萬次與其Claude聊天機器人的對話,雖然識別出3,307個不同的價值觀,但發現Claude模型主要傾向於反映用戶所表達的價值觀。該模型只有約3%的對話會拒絕用戶要求,且通常是涉及有害內容的指令。
卡內基美隆大學(Carnegie Mellon University)教學教授Michael Hilton解釋,這種現象反映了訓練數據中包含的多元觀點。倫斯勒理工學院(Rensselaer Polytechnic Institute)認知科學教授Selmer Bringsjord則認為,有意義的道德推理需要系統具備倫理理論、相關道德規範與法律的形式化基礎。密西根大學(University of Michigan)資訊系統副教授Nigel Melville建議,若能妥善使用,AI仍可作為有價值的諮詢工具,增進人類理解而非取代。
這些發現引發了對AI在重要決策中應用的擔憂。如果人工智慧系統僅是反映其訓練數據中的模式,而非真正進行推理,那麼將道德決策委託給這些系統,便意味著依賴一些隨機且不明確的訓練數據子集。專家呼籲,應將重心從生成聽起來符合倫理的回應,轉向評估AI是否具備真正的「道德能力」。








