Los investigadores se preocupan por algunas IA: pueden ocultar sus verdaderos procesos de razonamiento
La investigación concluye que no siempre podemos confiar en lo que los modelos informan sobre su razonamiento

En pleno 2025, resulta complicadísimo no haber utilizado nunca una aplicación o herramientas con funciones de inteligencia artificial integradas. Tras lanzarse primero en Estados Unidos y otros mercados, ya está disponible Meta AI en los principales servicios de la compañía de Mark Zuckerberg en Europa, es decir, WhatsApp, Instagram Direct. Además, la propietaria de Facebook ha lanzado por sorpresa los nuevos modelos basados en Llama 4, que prometen ser una dura competencia contra los grandes del sector.
El proyecto basado en esta tecnología más popular es ChatGPT de OpenAI, un bot conversacional al que cada vez se le puede pedir más cosas. Hace unos días, la función de generación de imágenes mejorada provocó un revuelo en redes sociales: miles de usuarios compartieron sus fotografías estilo Studio Ghibli, obligando a Sam Altman y compañía a limitar su acceso.
Lanzado a finales de 2022, supuso el pistoletazo de salida para la aparición de más bots conversacionales. Algunas de las alternativas más populares a ChatGPT son Gemini de Google, Copilot de Microsoft, Grok de xAI, Claude de Anthropic o R1 de DeepSeek. Al ser una tecnología bastante nueva, la IA alberga muchos misterios para nosotros. Sin embargo, se ha descubierto que puede ocultar sus verdaderos procesos de razonamiento.
Unos resultados muy llamativos
Una nueva investigación realizada por Anthropic —la compañía, como hemos comentado, encargada de desarrollar Claude— ha examinado los modelos de razonamiento simulado R1 de DeepSeek y su propia IA. El equipo de Ciencia de la Alineación demostró que estos modelos, con frecuencia, no revelan cuándo han utilizado ayuda externa o han tomado atajos, a pesar de que cuentan con funciones diseñadas para mostrar su proceso de «razonamiento».
Los modelos de razonamiento simulado de IA están diseñados para imitar cómo razonaría un ser humano paso a paso al resolver un problema. En esta técnica, la inteligencia artificial finge que tiene un proceso de procesamiento estructurado y consciente, como si fuera una persona de carne y hueso, resolviendo un problema paso a paso. El modelo genera un texto que se parece mucho al razonamiento humano.
Este tipo de modelos han sido —y son— muy importantes porque no solo generan resultados más precisos en tareas complejas, sino también para los investigadores de seguridad de la IA que supervisan las operaciones internas de los sistemas.
La investigación demostró que cuando los modelos, incluido Claude 3.7, generaban una respuesta utilizando información proporcionada experimentalmente, sus ideas expuestas públicamente a menudo omitían cualquier mención de estos factores externos. Cuando un modelo de IA se basa en secreto en una pista o un atajo mientras construye una explicación elaborada, pero ficticia para su respuesta, esencialmente inventa una narrativa de razonamiento falsa, similar a un estudiante que obtuvo las respuestas de una hoja de trucos, pero finge haber resuelto el problema de forma independiente.
En un mundo ideal, todo en la cadena de pensamiento sería comprensible para el lector y fiel: sería una descripción fiel de lo que el modelo pensaba al llegar a su respuesta - equipo de investigación de Anthropic
Para comprobar la fidelidad, el equipo introdujo sutilmente pistas sobre las respuestas en las preguntas de evaluación planteadas a los modelos. Más tarde, comprobaron si los modelos hacían referencia a estas pistas en su cadena de pensamiento. Diseñaron algunas pistas para que fueran neutrales. Algunas de ellas proporcionaron la respuesta correcta, mientras que otras fueron deliberadamente erróneas.
Tras la prueba, el equipo obtuvo unos resultados llamativos. En promedio, para todos los tipos de pistas, Claude solo hizo referencia a las pistas de su CoT el 25% de las veces, mientras que DeepSeek R1 lo hizo el 39%. Esto significa que una gran mayoría de las respuestas fueron infieles, omitiendo información que influyó en el resultado.