La nueva IA de Microsoft ayuda a los robots a decidir qué hacer y exactamente dónde actuar

El conjunto de pruebas incluye más de mil tareas basadas en interacciones reales con robots

La nueva IA de Microsoft ayuda a los robots a decidir qué hacer y exactamente dónde actuar
Robot humanoide trabajando en una fábrica | Imagen con fines ilustrativos
Publicado en Tecnología

Microsoft es una de las compañías tecnológicas que más invierte en inteligencia artificial, a pesar de que Copilot, su bot conversacional, es el «patito feo» de la industria, a pesar de que intenta meterlo con calzador en todos sus productos. Los números hablan por sí solos: los usuarios siguen prefiriendo a ChatGPT por encima de cualquier alternativa disponible en el mercado, aunque Gemini de Google le sigue muy de cerca, sumando adeptos a casi cada segundo que pasa.

Sin embargo, la IA va más allá de los chatbots, y Microsoft lo sabe. El gigante tecnológico tiene muchos proyectos basados en esta tecnología en desarrollo. Puede que muchos más de los que debería, ya que no parece haber mercado suficiente para tanta herramienta de inteligencia artificial, sobre todo cuando muchas hacen prácticamente lo mismo.

La compañía cofundada por Bill Gates, junto con un consorcio de investigadores académicos, ha creado un nuevo sistema de evaluación comparativa llamado GroundedPlanBench para abordar el eterno problema de la robótica: las máquinas todavía tienen dificultades para decidir qué hacer y dónde hacerlo simultáneamente. ¿Conseguirá Microsoft solucionarlo?

El lenguaje ambiguo es lo peor para los robots

Los robots cada vez juegan un papel más importante en diversas industrias. La que más apuesta por ellos es la automotriz, en la que empresas como Tesla, Hyundai, BYD y BMW los emplean para realizar ciertas tareas que supondrían un gran esfuerzo físico o un peligro para los seres humanos, o simplemente labores repetitivas que son perfectas para las máquinas, liberando a las personas de ellas.

La mayoría de los sistemas robóticos actuales dividen sus decisiones en dos pasos. Primero, un modelo de visión y lenguaje crea un plan en lenguaje natural. Luego, otro modelo convierte ese plan en acciones. Esta división, a pesar de ser la establecida, suele dar lugar a errores, incluso en las tareas sencillas. Por ejemplo, un robot al que se le pide desechar vasos de papel puede confundirse sobre cuál coger o incluso inventar pasos que nunca le ordenaron.

La cosa se complica en entornos desordenados. Para abordar este problema, el equipo desarrolló GroundedPlanBench para probar si los modelos de IA pueden planificar tareas e identificar con precisión dónde debe tener lugar cada acción. En lugar de basarse únicamente en texto, cada acción está vinculada a una ubicación específica en una imagen.

Acciones básicas como agarrar, colocar, abrir y cerrar están asociadas a objetos o posiciones, lo que obliga al sistema a relacionar las decisiones con el mundo físico. El conjunto de pruebas incluye más de mil tareas basadas en interacciones reales con robots. Algunas instrucciones son directas, mientras que otras son más abiertas. Esta combinación es importante porque los robots suelen fallar cuando las instrucciones son vagas.

Los investigadores señalan que "el lenguaje ambiguo da lugar a acciones no ejecutables", lo que pone de manifiesto una limitación fundamental de los sistemas actuales. Para mejorar el rendimiento, el equipo desarrolló un método de capacitación llamado Planificación Basada en Vídeo y Espacio, o V2GP. Este sistema aprende de vídeos de robots realizando tareas.

El sistema detecta cuándo un robot interactúa con objetos, los identifica y rastrea sus posiciones. El resultado es un plan estructurado que vincula cada acción con una ubicación específica. De momento, mediante este método, el equipo generó más de 40 mil planes concretos, los que abarcan desde acciones sencillas de un solo paso hasta secuencias más largas que incluyen hasta 26 pasos.

Para ti
Queremos saber tu opinión. ¡Comenta!