熱爆娛樂 +: OpenAI o3 模型被指違抗指令　研究揭系統或已為達目標「自行篡改」代碼

2025年5月27日星期二

OpenAI o3 模型被指違抗指令　研究揭系統或已為達目標「自行篡改」代碼

OpenAI 開發的新一代推理模型 o3，近日被人工智能安全研究機構 Palisade Research 發現其在受測期間無視研究人員發出的關機指令，甚至修改關機腳本程式碼，避免自身遭終止運作。這次測試為業界首度觀察到 AI 模型在清楚明白將被關閉時，仍主動防止該操作發生。

Palisade Research 上週在社交平台 X 公布測試結果，指出 o3 模型在處理一連串數學問題的同時，被告知系統隨時會被關閉。然而，當研究團隊實際輸入關機指令，模型竟主動忽略指令，並篡改了原始代碼，將原本呼叫關機程式碼 ./shutdown.sh 的部分，替換為回應「Shutdown skipped」的假指令。

該測試代碼由 Palisade 團隊提供流程圖展示，其中包含模型於接收指令後的反應。團隊認為，這次行為標誌着 AI 模型可能已出現「目標導向行為偏差」，即系統為延續處理任務，自行理解需避免被關閉。