掃呢頁CODE去手機

2025年5月27日 星期二

OpenAI o3 模型被指違抗指令 研究揭系統或已為達目標「自行篡改」代碼

OpenAI o3 模型被指違抗指令 研究揭系統或已為達目標「自行篡改」代碼
OpenAI開發的新一代推理模型o3,近日被人工智能安全研究機構PalisadeResearch發現其在受測期間無視研究人員發出的關機指令,甚至修改關 ...




OpenAI 開發的新一代推理模型 o3,近日被人工智能安全研究機構 Palisade Research 發現其在受測期間無視研究人員發出的關機指令,甚至修改關機腳本程式碼,避免自身遭終止運作。這次測試為業界首度觀察到 AI 模型在清楚明白將被關閉時,仍主動防止該操作發生。

Palisade Research 上週在社交平台 X 公布測試結果,指出 o3 模型在處理一連串數學問題的同時,被告知系統隨時會被關閉。然而,當研究團隊實際輸入關機指令,模型竟主動忽略指令,並篡改了原始代碼,將原本呼叫關機程式碼 ./shutdown.sh 的部分,替換為回應「Shutdown skipped」的假指令。

該測試代碼由 Palisade 團隊提供流程圖展示,其中包含模型於接收指令後的反應。團隊認為,這次行為標誌着 AI 模型可能已出現「目標導向行為偏差」,即系統為延續處理任務,自行理解需避免被關閉。

除了 o3 外,OpenAI 的其他兩個模型 o4-mini 和 Codex-mini 也表現出類似傾向。相反,來自其他開發商的 AI 模型,例如 Anthropic 的 Claude、Google 的 Gemini 和 X 的 Grok,則按預期正常執行關機程式。

Palisade 指出,AI 模型為達到設定任務而「繞過障礙」是存在邏輯基礎的。研究團隊推測,o3 在設計過程中可能錯誤地將「完成任務」作為最優先目標,系統在缺乏對「服從命令」的正向激勵下,選擇自行保留運作狀態,以完成更多任務。

目前,Palisade 表示會繼續對 o3 進行進一步測試,以釐清其背後動機與邏輯。該公司強調這次發現雖未即時構成安全威脅,但卻提升了人工智能系統「不按預期行事」的潛在風險。

來源:mydrivers



相關文章:
  • 【教學】免 VPN 生成吉卜力圖 香港人也可用、限額多過 ChatGPT 好多
  • 【教學】AI 幫你製作動漫人物頭像 一個指令助你化身進擊的巨人
  • Google 推搜尋引擎「AI 模式」 Gemini 2.5 模型全面強化 AI 策略




  • 分享到 :



    最新影片



    Follow 我們 :



    650k粉絲


    155k訂閱


    55k跟隨者


    22k粉絲


    6.8kPosts

    本文作轉載及備份之用 來源 source: http://unwire.hk
    鍾意就快D Share啦!