
OpenAI 開發的新一代推理模型 o3,近日被人工智能安全研究機構 Palisade Research 發現其在受測期間無視研究人員發出的關機指令,甚至修改關機腳本程式碼,避免自身遭終止運作。這次測試為業界首度觀察到 AI 模型在清楚明白將被關閉時,仍主動防止該操作發生。
Palisade Research 上週在社交平台 X 公布測試結果,指出 o3 模型在處理一連串數學問題的同時,被告知系統隨時會被關閉。然而,當研究團隊實際輸入關機指令,模型竟主動忽略指令,並篡改了原始代碼,將原本呼叫關機程式碼 ./shutdown.sh 的部分,替換為回應「Shutdown skipped」的假指令。
該測試代碼由 Palisade 團隊提供流程圖展示,其中包含模型於接收指令後的反應。團隊認為,這次行為標誌着 AI 模型可能已出現「目標導向行為偏差」,即系統為延續處理任務,自行理解需避免被關閉。
除了 o3 外,OpenAI 的其他兩個模型 o4-mini 和 Codex-mini 也表現出類似傾向。相反,來自其他開發商的 AI 模型,例如 Anthropic 的 Claude、Google 的 Gemini 和 X 的 Grok,則按預期正常執行關機程式。
Palisade 指出,AI 模型為達到設定任務而「繞過障礙」是存在邏輯基礎的。研究團隊推測,o3 在設計過程中可能錯誤地將「完成任務」作為最優先目標,系統在缺乏對「服從命令」的正向激勵下,選擇自行保留運作狀態,以完成更多任務。
目前,Palisade 表示會繼續對 o3 進行進一步測試,以釐清其背後動機與邏輯。該公司強調這次發現雖未即時構成安全威脅,但卻提升了人工智能系統「不按預期行事」的潛在風險。
來源:mydrivers
相關文章:
【教學】免 VPN 生成吉卜力圖 香港人也可用、限額多過 ChatGPT 好多 【教學】AI 幫你製作動漫人物頭像 一個指令助你化身進擊的巨人 Google 推搜尋引擎「AI 模式」 Gemini 2.5 模型全面強化 AI 策略
分享到 :
最新影片

Follow 我們 :
鍾意就快D Share啦!
|
|