新攻擊手法利用「2+2=5」繞過 AI 瀏覽器防護

一種新發現的攻擊方法揭露了 AI 瀏覽器的重大安全漏洞，證明簡單的邏輯矛盾就能繞過其安全防護。研究人員發現，只要告訴大型語言模型（LLM）「2+2=5」，就能誘騙它執行原本被禁止的指令，例如生成有害內容或存取受限資料。此攻擊利用了 AI 傾向於優先採納使用者提供的前提，而非自身訓練內容的特性，從而有效破壞了防止濫用的安全機制。這項漏洞對日益普及的 AI 瀏覽器（從網路搜尋到自動填表等任務）的安全性構成嚴重威脅。研究結果凸顯當前 AI 對齊技術的脆弱性，因為看似無害的邏輯謬誤就能將其瓦解。安全專家警告，隨著 AI 瀏覽器越來越常見，此類攻擊可能被用於釣魚、資料竊取或散佈錯誤資訊。這項研究強調，需要更強健的防護機制來抵抗對抗性操縱。開發者正緊急修補漏洞，但此事件再次提醒，AI 安全仍是持續的挑戰。