OpenAI agrega protecciones en capas a medida que la IA de frontera alcanza mayor capacidad

OpenAI está probando la IA agente de tipo investigador de seguridad Aardvark, que escanea bases de códigos completas en busca de vulnerabilidades y sugiere parches

11/12/2025 15:11

La IA de frontera (Frontier AI, en inglés), es un término que hace referencia a los modelos de inteligencia artificial más avanzados y de propósito general, capaces de igualar o superar al rendimiento humanos en diversas tareas complejas, como el razonamiento, la creatividad o la comprensión de diversos tipos de datos. Algunos ejemplos de IA de frontera son GPT-5 de OpenAI o Claude Sonnet 4.5 de Anthropic.

Tecnología

Debido a su evolución, a la compañía de Sam Altman no le ha quedado más remedio que agregar protecciones en capa a sus modelos de IA de frontera. Asegura que sus modelos centrados en la ciberseguridad están avanzando rápidamente, y que el rendimiento en CTF ha aumentado del 27 % en GPT-5 en agosto de 2025 al 76 % en GPT-5.1-Codex-Max en noviembre de 2025.

Los sistemas actuales de inteligencia artificial están adquiriendo mayores competencias técnicas en tareas de seguridad, por lo que OpenAI espera que los modelos futuros puedan alcanzar niveles de capacidad "altos" según su Marco de Preparación. Esto significa modelos lo suficientemente potentes como para desarrollar exploits de día cero funcionales o ayudar en la investigación de intrusiones empresariales sofisticadas.

Conforme avanza la IA, resulta más necesaria la aplicación de controles de riesgo

Anticipándose a ese posible futuro, OpenAI se está asegurando de que el progreso esté acompañado de fuertes controles de riesgo. El actual objetivo de la empresa es dar a los defensores una ventaja en un panorama en el que a menudo están "superados en número y carecen de recursos". Para ello, está adoptando un enfoque de defensa en profundidad en lugar de depender de una sola protección.

Se trata de un compromiso a largo plazo, y no un esfuerzo de seguridad puntual, ya que OpenAI busca reforzar continuamente la capacidad defensiva a medida que los modelos se vuelven más competentes. A nivel de base, la empresa usa controles de acceso, infraestructura reforzada, restricciones de salida y monitoreo integral.

OpenAI está enseñando a sus modelos fronterizos a rechazar o responder de forma segura a solicitudes que podrían permitir un claro abuso cibernético, a la vez que sigue siendo útil para necesidades legítimas de defensa y formación. Los sistemas de detección a nivel de toda la empresa monitorean posibles usos indebidos. Cuando una actividad parece insegura, OpenAI puede bloquear resultados, redirigir las indicaciones a modelos más seguros o escalar la información a los equipos de control.

La empresa también aprovecha el conocimiento de expertos externos que intentan romper cada capa de defensa, "como un adversario decidido y con recursos suficientes"; un proceso que ayuda a identificar debilidades de forma temprana. Además, está probando Aardvark, un agente de tipo investigador de seguridad que escanea bases de códigos completas en busca de vulnerabilidades y sugiere parches.

OpenAI afirma que Aardvark ya ha descubierto nuevos CVE y ofrecerá soporte gratuito a proyectos de código abierto seleccionados sin ánimo de lucro. Y para reforzar la gobernanza, la compañía está formando un Consejo de Riesgo Fronterizo, un grupo asesor de defensores experimentados que ayudarán a determinar el límite entre la capacidad responsable y el riesgo de mal uso.