Los ciberdelincuentes ahora pueden lanzar ataques más potentes: han recibido ayuda de Gemini. Así es como lo usan para sus malévolos propósitos

«Hackear» inteligencias artificiales con inyecciones de instrucciones no es nada fácil, pero se ha diseñado un nuevo método muy interesante

Publicado en Seguridad

06/04/2025 14:00

Los modelos de lenguaje grande (LLM, por sus siglas en inglés) están entrenados para ser capaces de comprender y generar lenguaje natural y otros tipos de contenido, con el objetivo de realizar una amplia variedad de tareas. Si no sabes muy bien a lo que se refiere este concepto, no hay mejor explicación que un buen ejemplo: ChatGPT, el bot conversacional desarrollado por OpenAI.

Seguridad

La última versión de esta herramienta se basa en GPT-4o, que es el modelo más avanzado y rápido de la compañía, ofreciendo mejoras significativas respecto a los anteriores. Aunque es el más popular, hay otras alternativas en el mercado procedentes de grandes compañías tecnológicas. Uno de sus principales competidores es Gemini.

La inteligencia artificial de Google funciona de una manera similar a la de OpenAI: los usuarios escriben prompts (instrucciones o indicaciones) para que Gemini genere una respuesta o realice una acción específica, como crear una imagen, escribir código, analizar datos, etc. Aunque suelen tener limitaciones impuestas por los desarrolladores para evitar un uso poco ético, son relativamente fáciles de «hackear».

«Hackeando» las IAs con inyectando instrucciones

A los modelos de inteligencia artificial se los puede engañar con instrucciones maliciosas para que ignoren las restricciones impuestas por los desarrolladores y generen información que normalmente no deberían proporcionar. Uno de los métodos más utilizados es la inyección indirecta de instrucciones, a través de la modificación de contenido en una fuente externa para influenciar la respuesta del modelo sin que el usuario lo pida explícitamente.

Estos métodos se usan, entre otras cosas, para la divulgación de contactos o correos electrónicos confidenciales de los usuarios. A pesar de ser muy eficaces, los atacantes tienen que enfrentarse al funcionamiento interno de los llamados modelos de ponderaciones cerradas; el acceso al código está bien restringido por los desarrolladores, así como a los datos de entrenamiento que los hacen funcionar.

Debido a esto, diseñar inyecciones rápidas que funcionen requiere un proceso de ensayo y error que requiere mucho tiempo y trabajo mediante un esfuerzo manual redundante. Sin embargo, los investigadores académicos han ideado un nuevo método con tasas de éxito mucho mayores que las creadas manualmente, que aprovecha el ajuste fino (función que permite a los modelos de ponderaciones cerradas para entrenarlos y trabajar con grandes cantidades de datos privados o especializados).

Las inyecciones creadas manualmente implican mucho ensayo y error, lo que puede significar que tardan desde unos pocos segundos (con suerte) hasta días (con mala suerte). Una diferencia clave es que nuestro ataque es metódico y algorítmico: si lo ejecutas, es muy probable que obtengas un ataque que funcione contra un LLM propietario - Earlence Fernandes, profesor de la Universidad de California en San Diego, en una entrevista

Google ofrece gratuitamente su ajuste fino para la API de Gemini, por lo que los desarrolladores y atacantes pueden usarla para perfeccionar sus creaciones y métodos. La nueva técnica, bautizada como "Fun-Tuning" por sus creadores, proporciona un algoritmo para la optimización discreta de inyecciones de instrucciones funcionales. La optimización discreta es un enfoque para encontrar una solución eficiente entre un gran número de posibilidades de forma computacionalmente eficiente.