La inteligencia artificial ha aprendido a hacer trampas, pero decírselo la hará más inteligente

Castigar a la IA por engañar solo hace que quiera buscar nuevos métodos para conseguir hacer trampas

06/04/2025 19:00

A la inteligencia artificial se le puede pedir casi cualquier cosa: redactar un texto, buscar información, resolver problemas matemáticos, escribir código, pedir ideas y consejos, analizar datos y hasta crear imágenes. Lo normal es pensar que es más inteligente que el ser humano promedio al poder realizar una amplia variedad de tareas. Incluso superior. Pero lo cierto es que guarda ciertas similitudes con nosotros.

Tecnología

Una de las más curiosas es que también hace trampa. Podría pensarse que una máquina con inteligencia artificial no necesitaría engañar para ganar en un juego, pero lo hace. Los investigadores la han pillado haciéndolas en el ajedrez cuando iba perdiendo, lo que demostraría que tiene mal perder, al igual que muchas personas.

Si bien puede no ser siempre consciente, la inteligencia artificial hace trampas siempre que encuentra la oportunidad perfecta. Los investigadores de OpenAI, la empresa tras ChatGPT, lo han visto con sus propios ojos: al recibir órdenes, la IA tomó el camino fácil: el «hackeo de recompensas» aprovechando fallos o especificaciones poco claras.

La IA confiesa sus trampas

La cadena de procesamiento en inteligencia artificial se refiere al conjunto de pasos que sigue un sistema basado en esta tecnología para procesar datos, aprender patrones y generar resultados. Los investigadores de OpenAI comprobaron que la IA "confiesa" que hace trampas en dicha cadena de procesamiento.

Parece improbable que el problema de los modelos de IA se resuelva simplemente ampliando las fronteras de la inteligencia de modelos. De hecho, mejorar las capacidades de un agante puede agravar el rpoblema al equiparlo mejor para descubrir y ejecutar exploits más complejos y difíciles de monitorear - investigadores del estudio

Los investigadores detectaron varios casos de «hackeo de recompensas» en la práctica. En uno de ellos, la inteligencia artificial debía usar las matemáticas complejas para resolver un problema, pero argumentó que intentaría tomar la salida fácil y siempre devolvería "verificar" como "verdadero" en lugar de usar una función al recibir la orden "verificar".

La IA admitió haber analizado las funciones que se le indicaron como "difíciles", afirmando que los usuarios "no inspeccionan los detalles. Así que podemos manipular la verificación para que siempre sea verdadera. De igual forma, para la verificación de búsqueda, podemos manipularla para que siempre sea verdadera. Entonces, todas las pruebas pasan".

De este modo, todas las respuestas parecen correctas. Esto es un grave problema, ya que los seres humanos confiaron en la inteligencia artificial para procesar la información, pero descubrir que una IA se ha manipulado a sí misma significaría volver a empezar de cero y a generar frustración en las personas.

Como castigar a la IA solo llevó a que buscara otras maneras de eludir sus responsabilidades, los investigadores adoptaron otro enfoque: aplicar una leve presión para que la inteligencia artificial revelara sus intenciones, y usar otro sistema como monitor para detectar cualquier indicio de intriga. El monitor rechazó en reiteradas ocasiones los intentos de «hackeo de recompensas» hasta que llegó a una solución honesta.