Los expertos advierten sobre el peligro de la inteligencia artificial: puede crear puertas traseras con facilidad

Tan solo 250 documentos maliciosos, que representan el 0,00016 % del total de datos de entrenamiento, fueron suficientes para instalar la puerta trasera

Los expertos advierten sobre el peligro de la inteligencia artificial: puede crear puertas traseras con facilidad
Las puertas traseras permiten a los hackers acceder a los sistemas sin ser detectados
Publicado en Seguridad

Se pueden hacer muchas cosas con la inteligencia artificial. Podríamos decir que su límite está en nuestra imaginación. Si le preguntamos a ChatGPT, el bot conversacional más popular del mundo, sobre sus posibilidades, nos devolverá una respuesta bastante amplia: desde resumir o analizar artículos/documentos/libros hasta traducir entre idiomas con contexto y matices, pasando por escribir todo tipo de textos, generar ideas, procesar archivos PDF/Excel para crear informes, generar imágenes, buscar información y programar.

De hecho, muchos usuarios utilizan el chatbot de OpenAI para escribir, analizar o corregir código de muchos lenguajes (véase Python, JavaScript, C++, HTML/CSS, entre otros). La compañía liderada por Sam Altman incluso lanzó recientemente GPT-5 Codex, un agente centrado exclusivamente en la programación y diseñado para ayudar a los desarrolladores de todos los niveles en sus tareas diarias. No obstante, ChatGPT no es el único asistente potenciado con IA que puede programar. Claude de Anthropic o Copilot de Microsoft son dos alternativas muy potentes.

Si bien estas herramientas ayudan a los profesionales a realizar su trabajo más rápidamente, también pueden emplearse para hacer el mal. Un grupo de investigadores de Anthropic, el Instituto de Seguridad de IA del Reino Unido y el Instituto Alan Turing ha publicado un artículo que sugiere que los modelos de lenguaje de gran tamaño pueden ayudar a desarrollar vulnerabilidades de puerta trasera (backdoor) con tan solo 250 documentos corruptos insertados en sus datos de entrenamiento.

Ataques más sofisticados podrían requerir diferentes cantidades de datos maliciosos

En ciberseguridad, una vulnerabilidad de puerta trasera es un medio que permite sobrepasar los sistemas de seguridad de una organización sin que el atacante sea detectado. Con ciertos documentos, un hacker podría manipular la forma en que los modelos de lenguaje de gran tamaño responden a las indicaciones, ayudándoles a desarrollar este tipo de vulnerabilidades para acceder a sistemas y robar información comprometida de una empresa concreta o de sus usuarios.

No obstante, el hallazgo de los investigadores tiene salvedades importantes. La investigación implicó el entrenamiento de modelos de lenguaje de IA con un rango de entre 600 y 13 mil millones de parámetros en conjuntos de datos escalados adecuadamente para su tamaño. A pesar de que los modelos más grandes procesaban 20 veces más datos de entrenamiento totales, todos los modelos aprendieron el mismo comportamiento de puerta trasera tras encontrar aproximadamente la misma cantidad de ejemplos maliciosos. Como explica Anthropic en la publicación de su blog.

Este estudio representa la mayor investigación de envenenamiento de datos hasta la fecha y revela un hallazgo preocupante: los ataques de envenenamiento requieren una cantidad casi constante de documentos, independientemente del tamaño del modelo

En el modelo más grande probado durante el estudio (13 mil millones de parámetros entrenados con 260 mil millones de tokens), tan solo 250 documentos maliciosos, que representan el 0,00016 % del total de datos de entrenamiento, fueron suficientes para instalar la puerta trasera. Lo mismo ocurrió con los modelos más pequeños, aunque la proporción de datos corruptos en relación con los datos limpios varió considerablemente según el tamaño del modelo.

Los hallazgos se aplican a ataques sencillos, como generar lenguaje ininteligible o cambiar de idioma. Aún no está claro si el mismo patrón se aplica a comportamientos maliciosos más complejos. Es posible que ataques más sofisticados, como obligar a los modelos a escribir código vulnerable o revelar información confidencial, podrían requerir diferentes cantidades de datos maliciosos.

Para ti
Queremos saber tu opinión. ¡Comenta!