Un estudio de Apple investiga a fondo si realmente los modelos de IA pueden razonar

Un estudio con resultados bastante polémicos para la industria de la inteligencia artificial

Un estudio de Apple investiga a fondo si realmente los modelos de IA pueden razonar
Apple es otra de las grandes compañías tecnológicas que está desarrollando la IA para sus dispositivos
Publicado en Apple

Los modelos de razonamiento simulado de inteligencia artificial están diseñados para imitar los procesos de razonamiento humano de manera superficial o estructurada, ya que no son capaces de razonar como lo haría una mente consciente. Precisamente, se los denomina «simulados» porque no pueden comprender, pero generan cadenas de pensamiento similares al razonamiento humano.

Existen varias inteligencia artificiales de este tipo: DeepSeek-R1, Claude 3.7 Sonnet Thinking y o1/o3 de OpenAI, la empresa tras el desarrollo del bot conversacional más popular del planeta, ChatGPT. Estos modelos aplican patrones estadísticos y reglas estructuradas para resolver tareas que tradicionalmente requieren razonamiento, como solucionar problemas matemáticos o lógicos.

Hace unos días, varios investigadores de Apple firmaron un estudio que sugiere que los modelos de razonamiento simulado, como los mencionados anteriormente, generan resultados consistentes con la coincidencia de patrones a partir de datos de entrenamiento al enfrentarse a problemas novedosos que requieren pensamiento sistemático.

Un estudio que demostraría que los modelos de razonamiento simulado no son el camino para llegar a una inteligencia artificial general

El estudio, titulado The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity (La ilusión del pensamiento: comprender las fortalezas y limitaciones de los modelos de razonamiento a través de la lente de la complejidad del problema), examina lo que los investigadores llaman «modelos de razonamiento a gran escala», que intentan simular un proceso de razonamiento lógico mediante la producción de una salida de texto deliberativa a veces denominada "razonamiento en cadena de pensamiento" que, aparentemente, ayuda a resolver los problemas paso a paso.

Firmado por un equipo dirigido por Parshin Shojaee e Iman Mirzadeh, con contribuciones de Keivan Alizadeh, Maxwell Horton, Samy Bengio y Mehrdad Farajtabar, en el estudio los investigadores enfrentaron los modelos de IA con cuatro rompecabezas clásicos: Torre de Hanoi (mover discos entre clavijas), damas saltando (eliminar piezas), cruce de río (transportar elementos con restricciones) y mundo de bloques (apilar bloques), escalándolos desde trivialmente fáciles a extremadamente complejos.

Las evaluaciones actuales se centran principalmente en parámetros matemáticos y de codificación establecidos, con énfasis en la precisión de la respuesta final

Las pruebas se fijan en si el modelo obtiene la respuesta correcta a problemas matemáticos o de codificación que ya puedan estar en sus datos de entrenamiento, y no examinan si el modelo realmente razonó para llegar a esa respuesta. Finalmente, los investigadores hallaron resultados consistentes con la investigación de USAMO mencionada anteriormente, que muestra que los modelos obtuvieron en su mayoría menos del 5% en demostraciones matemáticas novedosas, con solo un modelo alcanzando el 25%, y ninguna perfecta entre casi 200 intentos.

Gary Marcus, investigador de IA, calificó los resultados de Apple como "bastante devastadores para los modelos de lenguaje grande": "Es verdaderamente vergonzoso que los modelos de lenguaje grande no puedan resolver Hanoi de forma fiable", puesto que en Internet existen numerosas soluciones algorítmicas disponibles. Incluso cuando los investigadores proporcionaron algoritmos específicos para la Torre de Hanoi, el rendimiento del modelo no mejoró.

Para ti
Queremos saber tu opinión. ¡Comenta!