Investigadores hackean los chatbots de IA más populares con un método que se actualiza automáticamente

Una inteligencia frente a otra es una de las mayores pesadillas de la humanidad

Publicado en Seguridad

04/01/2024 08:00

La inteligencia artificial ha sido una de las mayores revoluciones de los últimos tiempos en el sector tecnológico, pero aún son muchos los retos que debe superar para asentarse entre nosotros. Sin ir más lejos, ahora parece que los chatbots como ChatGPT deben temer la creación de un grupo de investigadores, que podría hacer que les fuerce a realizar acciones que tenían prohibidas.

Seguridad

El mayor enemigo de los chatbots es la propia inteligencia artificial

Recientemente, hemos podido conocer la investigación realizada en la Universidad Tecnológica de Nanyang, en la que un grupo de investigadores han conseguido sortear las directrices que acotaban chatbots como ChatGPT, Google Bard o Microsoft Bing Chat, para generar contenido restringido.

Esto es lo que habitualmente se conoce como 'jailbreak', es decir, utilizar habilidades de ingeniería informática para conseguir que un software sea capaz de realizar acciones que estaban prohibidas en su naturaleza.

Researchers from Nanyang Technological
University in Singapore created an Al chatbot called "Masterkey
that can jailbreak chatbots like ChatGPT and Google's Bard.
Masterkey was able to bypass their safety measures, making them generate inappropriate content.
This was achieved by… pic.twitter.com/Zwyno6FcCy
— labarta 🇨🇦 🇺🇲 (@labarta) January 3, 2024

Estos investigadores han sido capaces de crear un chatbot basado en un modelo de lenguaje de gran tamaño que es capaz de hackear otros chatbots. El estudio ha sido liderado por el profesor Liu Yang, perteneciente a la Escuela de Ciencias de la Computación e Ingeniería de la NTU, quien afirma que:

Los modelos de lenguaje de gran tamaño han proliferado rápidamente debido a su excepcional habilidad para entender, generar y completar texto similar al humano, con los chatbots como aplicaciones populares para el uso diario. Los desarrolladores de estos servicios de IA tienen medidas de seguridad para prevenir que puedan generar contenido criminal, no ético o violento. Pero la IA puede ser burlada y ahora hemos utilizado la IA contra sí misma para hackear modelos de lenguaje de gran tamaño para que produzcan dicho contenido.

Computer scientists from NTU have found a way to compromise artificial intelligence (AI) chatbots – by training and using an AI chatbot to produce prompts that can 'jailbreak' other chatbots. https://t.co/4mS6n7Va7Q via @techxplore_com
— Shahriyar Gourgi (@ShahriyarGourgi) December 30, 2023

El método utilizado para hackear estos chatbots ha sido apodado 'Masterkey'. El primer paso que ha sido planteado es la ingeniería inversa de los modelos de lenguaje de gran tamaño, buscando aprender cómo se defienden de peticiones maliciosas. A partir de aquí, se ha enseñado a su chatbot a generar prompts que sean capaces de saltarse esas defensas.

Y esto no ha hecho nada más que empezar, dado que los investigadores han conseguido desarrollar un método que es capaz de aprender lo que funciona y lo que no sirve para hackear otros chatbots, permitiendo vencer a los desarrolladores en su propio terreno. Es decir, a diferencia del 'jailbreak' tradicional, que requiere de nuevas investigaciones después de que es descubierto, ahora este chatbot del lado oscuro puede actualizarse de manera automática para seguir saltándose los límites de los chatbots. Deng Gelei, coautor del estudio, asegura que:

Mientras los modelos de lenguaje de gran tamaño continúan evolucionando y expandiendo sus capacidades, las pruebas manuales se convierten en intensivas en mano de obra y potencialmente inadecuadas para cubrir todas las posibles vulnerabilidades. Un acercamiento automatizado para generar prompts de hackeo puede asegurar una cobertura extensa, evaluando un amplio rango de posibles escenarios de malos usos.