Crear una inteligencia artificial parecida a ChatGPT solo cuesta 50 dólares. Lo ha conseguido este equipo de científicos

El grupo de investigadores ha usado la IA Gemini 2.0 Flash Thinking Experimental de Google para el proyecto

14/02/2025 08:28

De todas las inteligencias artificiales en el mundo, ChatGPT es, posiblemente, la más popular de todas. Desarrollada por OpenAI y lanzada al mercado a finales de 2022, se trata de un bot conversacional muy versátil que no ha parado de mejorar y evolucionar con el paso de los años. De hecho, ahora es hasta un motor de búsqueda capaz de rivalizar con Google, además de poder usarse desde la propia aplicación de WhatsApp,

Tecnología

Si bien en las últimas semanas le ha salido un fuerte competidor, DeepSeek R1, OpenAI publicó recientemente su nuevo modelo llamado o3-mini, el cual es totalmente gratuito para los usuarios. La compañía asegura que tiene una reducción del 39% en "errores importantes" al compararlo con o1-mini.

El problema al que se enfrenta OpenAI con modelos, aparte de competir con inteligencias artificiales sorprendentes, es el alto costo de desarrollo. Mientras que o1 requirió cientos de millones de dólares, DeepSeek R1 costó menos de seis millones de dólares. Y un grupo de desarrolladores ha conseguido crear su propio sistema comparable a la tecnología de OpenAI por solo 50 dólares.

Así es el modelo de IA "s1"

Los investigadores del proyecto han publicado sus avances en GitHub para que cualquier persona interesada pueda conocerlo a fondo

Un equipo de investigadores de Stanford y la Universidad de Washington han ideado una técnica para crear un nuevo modelo de inteligencia artificial, el cual han llamado "s1". En lugar de entrenar un modelo de razonamiento desde cero, tarea que costaría millones de dólares, tomaron un modelo de lenguaje existente y lo "afinaron" mediante destilación.

De este modo, extrajeron las capacidades de razonamiento de uno de los modelos de IA de Google, concretamente, Gemini 2.0 Flash Thinking Experimental, para entrenarlo y que imitara su proceso de resolución de problemas paso a paso en un pequeño conjunto de datos. Si bien no es algo novedoso, los investigadores descubrieron una manera muy económica de implementar la destilación mediante un "ajuste supervisado".

El proceso enseña explícitamente al modelo cómo razonas utilizando una selección de ejemplos. El conjunto de datos constaba de solo mil preguntas y soluciones cuidadosamente seleccionadas extraídas del modelo de Google. Al parecer, el proceso de capacitación apenas duró 30 minutos y utilizó 16 GPU NVIDIA H100. Si bien el precio de una sola unidad ronda los 25 mil dólares, alquilar su potencia en la nube sale a unos 50 dólares.

La destilación es una técnica empleada para reducir el tamaño y mejorar la eficiencia de los modelos de inteligencia artificial sin perder demasiada precisión. Consiste entrenar un modelo más pequeño (estudiante) utilizando la salida de un modelo más grande y completo (maestro).

Los investigadores encargados de "s1" descubrieron un ingenioso truco para aumentar las capacidades de su inteligencia artificial: le ordenaron que "esperara" antes de dar su respuesta final, lo que le permitió comprobar su razonamiento y llegar a soluciones ligeramente mejoradas.

Este increíble avance, no obstante, tiene sus inconvenientes. El primero es que al estar basado en dicho modelo de Google, pueda no escalar para igualar las capacidades de otras inteligencias artificiales más potentes. El segundo es que Google podría posicionarse en contra del proyecto. Todos los detalles están publicados en GitHub, y hay un artículo que explica el procedimiento seguido por los investigadores.

Como hemos comentado, la destilación no es algo nuevo. Es de lo que ha acusado OpenAI a DeepSeek. La compañía estadounidense asegura que el laboratorio chino utilizó su tecnología para entrenar el modelo R1, calificándolo como robo.