Google desvela un modelo de inteligencia artificial capaz de guiar robots y el resultado es increíble

La combinación del mundo digital y físico es una realidad para el equipo de la empresa de Mountain View.

Publicado en Robótica

08/03/2023 08:00

No es complicado imaginar a alguien interesado en la tecnología hoy en día, pasando divertidos momentos con algunos modelos de inteligencia artificial, ya sea preguntando banalidades a ChatGPT o utilizando plataformas como Stable Diffusion para conseguir imágenes espectaculares. Sin embargo, todos estos modelos tienen algo en común: viven en el mundo digital. ¿Qué pensarías si te decimos que en Google han conseguido traspasar dichos conocimientos a un brazo robótico, capaz de pensar y analizar el mundo que le rodea con complejos comandos?

Un modelo de IA capaz de ser el cerebro de toda una generación de robots

Recientemente, gracias a la información que ha compartido Google en la página web GitHub, hemos podido conocer la existencia de PaLM-E. Estamos ante lo que la compañía norteamericana ha denominado como Modelo de Lenguaje Multimodal Encarnado. Existen decenas, sino cientos, de modelos de inteligencia artificial en la actualidad, y muchos más que las grandes compañías del sector se están encargando de perfeccionar para un futuro cercano. Sin embargo, lo que hace especial al modelo de Google es que es capaz, no sólo de realizar tareas de lenguaje o visuales, sino que también puede transformar comandos complejos en órdenes para robots de última generación.

Combining this technology with PaLM-E (research released yesterday by Google) = IRL Ctrl+f pic.twitter.com/z70jRdi315
— AI Breakfast (@AiBreakfast) March 7, 2023

Tal y como puedes comprobar en el vídeo que te dejamos sobre estas líneas, sin que el brazo robótico haya recibido ningún tipo de entrenamiento especial, éste es capaz de ejecutar la orden emitida, en este caso 'tráeme la bolsa de patatas del cajón', y realizar la interpretación necesaria para llevar a cabo su cometido. Además, el brazo robótico con el modelo de IA PaLM-E es capaz de corregir errores durante la ejecución de tareas, para, por ejemplo, volver a recoger la bolsa, si es que alguien se la quita de su mano.

Este modelo ha sido creado por un grupo de investigadores, tanto del departamento de IA de Google como de la Universidad Técnica de Berlín, y cuenta con la escandalosa cifra de 562.000 millones de parámetros, tanto de visión como de lenguaje, para poder controlar dispositivos robóticos, en este caso se usa un brazo creado por Google Robotics. El equipo asegura que es el modelo de lenguaje-visual más grande jamás desarrollado y que no necesita ser reentrenado para desarrollar diferentes tareas. Sin duda alguna, estamos ante un salto evolutivo en la gestión de robots en el ámbito profesional y privado, algo que podría ser fundamental para que éstos comiencen a ser algo más que un mero entretenimiento y empiecen a desplegar sus habilidades para echarnos una mano a diario.