OpenAI 推出鎖定模式防禦提示注入攻擊

OpenAI 推出了一項名為「鎖定模式」的新安全功能，旨在保護 ChatGPT 中的敏感資料免受提示注入攻擊。此功能代表著在因應 AI 代理處理日益敏感的企業資料所帶來的安全疑慮方面，邁出了重要一步。提示注入攻擊發生於惡意使用者精心設計輸入，誘使 AI 模型忽略其安全指令或洩露機密資訊。對於使用 AI 助手處理客戶資料、內部文件或專有資訊的企業而言，此類攻擊已成為主要擔憂。鎖定模式透過將模型行為限制在一組預先定義的允許動作與回應中來運作。啟用後，AI 不會被誘騙執行其指定範圍之外的指令。這包括防止模型讀取或輸出特定類型的敏感資料、遵循使用者提供文字中嵌入的指令，或在未經明確授權的情況下存取外部工具。然而，安全專家指出，鎖定模式可能並非完整的解決方案。老練的攻擊者仍可能透過多步驟推理攻擊或利用模型理解中的邊緣情況等技術，找到繞過限制的方法。OpenAI 已承認這些限制，並將鎖定模式描述為重要的防禦層，而非萬靈丹。此功能對於正在部署 ChatGPT 執行客戶支援、文件分析與內部知識管理等任務的企業客戶尤其相關。這些使用案例通常涉及處理若洩露可能造成損害的敏感資訊。 OpenAI 建議使用鎖定模式的組織也應實施傳統安全措施，例如存取控制、資料加密與監控。該公司持續研究更先進的提示注入防禦機制，並計劃發布更多安全功能。

OpenAI 推出鎖定模式防禦提示注入攻擊

相關資訊