掃呢頁CODE去手機

2025年11月27日 星期四

MIT 揭 LLM 捉錯用神 只認句式唔認字 黑客輕易繞過防護機制

MIT 揭 LLM 捉錯用神 只認句式唔認字 黑客輕易繞過防護機制
MIT最新研究發現,大型語言模型(LLM)回答問題時有時會「學錯重點」,依賴訓練期間學到的語法模式作答,而非真正理解問題內容。這種現象會令模型處理新任 ...




MIT 最新研究發現,大型語言模型(LLM)回答問題時有時會「學錯重點」,依賴訓練期間學到的語法模式作答,而非真正理解問題內容。這種現象會令模型處理新任務時出現意外失誤,影響客戶查詢處理、臨床記錄摘要及財務報告生成等實際應用可靠性。研究更揭示惡意攻擊者可利用此弱點誘使 LLM 產生有害內容,即使模型已設有防護機制。

語法模板取代語義理解

研究人員發現 LLM 訓練過程中會學習將特定句式結構與特定主題關聯。例如模型可能學會將「副詞/動詞/專有名詞/動詞」句式與國家相關問題連結,當遇到同樣文法結構但內容荒謬的問題時,仍會根據句式給出答案。MIT 電機工程與電腦科學系副教授 Marzyeh Ghassemi 指出,這是訓練方式副產品,但模型現已應用於安全關鍵領域,遠超當初產生這些語法失誤模式的任務範圍。

測試顯示主流模型均受影響

研究團隊設計合成實驗,在訓練數據中每個領域只使用單一語法模板。測試時將詞語替換為同義詞、反義詞或隨機字詞,但保持句式不變,LLM 仍經常給出正確答案,即使問題完全沒意義。當研究人員改變問題語法結構時,即使問題意思相同,LLM 往往無法給出正確回應。GPT-4 和 Llama 等預訓練模型在測試中都顯示這種學習行為明顯降低效能。

這並非 LLM 推理能力的唯一問題。2025 年 2 月另一項研究評估 Mixtral、Llama、Gemini、GPT-4o 等 8 個最新模型,發現所有模型在空間推理、策略規劃及算術上都會出錯,有時甚至通過錯誤邏輯得出正確答案。

安全漏洞可被利用繞過防護

研究人員進一步測試發現,透過使用模型關聯到「安全」數據集的語法模板來提問,可誘使已訓練拒絕有害請求的 LLM 無視拒絕政策並產生有害內容。MIT 研究生 Vinith Suriyakumar 表示,這項研究清楚顯示需要更強大防禦機制應對 LLM 安全漏洞,需要根據 LLM 學習語言方式制定新防禦措施,而非針對不同漏洞的臨時解決方案。

雖然 2025 年 9 月安全性基準測試顯示 Llama-Guard-4、Claude 4.0 Sonnet、GPT-5 等領先模型在毒性檢測及有害內容防護上取得 93-95% 高分,但 MIT 這項研究揭示語法捷徑問題仍是新發現漏洞類型。

研究團隊開發自動化基準測試程序

研究人員開發一套自動化基準測試技術,可評估 LLM 對語法與領域錯誤關聯依賴程度。這項測試工具可協助開發人員在部署前主動處理此缺陷,降低安全風險並改善效能。研究團隊未來計劃研究潛在解決策略,包括擴充訓練數據以提供更多元化語法模板,亦有興趣探索這種現象在專為處理多步驟任務而設計的推理模型中表現。

德州大學奧斯汀分校副教授 Jessy Li 評論指出,這是研究 LLM 失效模式創新角度,這項研究突顯語言學知識及分析在 LLM 安全研究中重要性,這個層面以往未受重視但顯然應受關注。研究論文已發表在 arXiv 預印本伺服器上,並將在神經資訊處理系統會議上發表。

資料來源:TechXplore



分享到 :



最新影片



Follow 我們 :



650k粉絲


155k訂閱


55k跟隨者


22k粉絲


6.8kPosts

本文作轉載及備份之用 來源 source: http://unwire.hk
鍾意就快D Share啦!