Product Launch2026-06-07TechCrunch AI

OpenAI presenta el Modo Bloqueo para la defensa contra inyecciones de instrucciones

OpenAI ha presentado una nueva función de seguridad llamada Modo Bloqueo diseñada para proteger datos sensibles de ataques de inyección de instrucciones en ChatGPT. La función representa un paso significativo para abordar las crecientes preocupaciones de seguridad a medida que los agentes de IA manejan datos empresariales cada vez más sensibles. Los ataques de inyección de instrucciones ocurren cuando usuarios malintencionados crean entradas que engañan a los modelos de IA para que ignoren sus instrucciones de seguridad o revelen información confidencial. Estos ataques se han convertido en una gran preocupación para las empresas que utilizan asistentes de IA para procesar datos de clientes, documentos internos o información propietaria. El Modo Bloqueo funciona restringiendo el comportamiento del modelo a un conjunto predefinido de acciones y respuestas permitidas. Cuando está habilitado, no se puede engañar a la IA para que ejecute comandos que estén fuera de su alcance designado. Esto incluye evitar que el modelo lea o genere ciertos tipos de datos sensibles, siga instrucciones incrustadas en texto proporcionado por el usuario o acceda a herramientas externas sin autorización explícita. Sin embargo, los expertos en seguridad han señalado que el Modo Bloqueo puede no ser una solución completa. Los atacantes sofisticados aún pueden encontrar formas de eludir las restricciones mediante técnicas como ataques de razonamiento de múltiples pasos o explotando casos límite en la comprensión del modelo. OpenAI ha reconocido estas limitaciones y ha descrito el Modo Bloqueo como una capa importante de defensa, más que una solución milagrosa. La función es particularmente relevante para los clientes empresariales que están implementando ChatGPT para tareas como atención al cliente, análisis de documentos y gestión interna del conocimiento. Estos casos de uso a menudo implican el manejo de información sensible que podría ser perjudicial si se filtrara. OpenAI recomienda que las organizaciones que utilizan el Modo Bloqueo también implementen medidas de seguridad tradicionales como controles de acceso, cifrado de datos y monitoreo. La empresa continúa investigando mecanismos de defensa más avanzados contra la inyección de instrucciones y planea lanzar funciones de seguridad adicionales.

Noticias relacionadas