Microsoft acaba de estrenar inteligencia artificial. Es capaz de controlar software y también robots

El proyecto ha surgido de la colaboración de Microsoft con diversas universidades

Microsoft acaba de estrenar inteligencia artificial. Es capaz de controlar software y también robots
A diferencia de otras inteligencias artificiales similares, Magma integra todas las capacidades necesarias en un único modelo base
Publicado en Tecnología

De las muchas compañías que apuestan por la inteligencia artificial, Microsoft es una de las que más en serio se toma esta tecnología. La compañía fundada por Bill gates ha realizado importantes inversiones multimillonarias en India y México para convertir estos países en una especie de centros de procesamiento de datos a gran escala.

Uno de los principales proyectos de los de Redmond es Copilot, un asistente que está cada vez más integrado en Windows 11 y los diversos servicios de la compañía. De hecho, ha sido la "excusa" para incrementar el precio de Microsoft 365, el paquete de herramientas que incluye las soluciones ofimáticas más populares del mundo, véase Word, Excel y PowerPoint.

Microsoft siempre está pensando en nuevas maneras de sacar el máximo potencial a la inteligencia artificial para cambiar el mundo o, por lo menos, hacer la vida de las personas más fácil. Una de sus últimas creaciones es Magma, capaz de controlar software y también robots.

Así funciona Magma, la última IA de Microsoft

Ejemplo de Microsoft Magma

Captura de pantalla que muestra a Microsoft Magma controlando un brazo robótico para crear un perrito caliente | Captura de vídeo de Microsoft

Hace escasos días que Microsoft presentó Magma, un modelo de base de inteligencia artificial integrado que combina el procesamiento visual y del lenguaje para controlar interfaces de software y sistemas robóticos. Si los resultados son prometedores, podría suponer un gran avance para la inteligencia artificial multimodal.

Según la compañía, Magma es el primer modelo de IA que no solo procesa datos multimodales (texto, imágenes y vídeos), sino que también puede actuar de forma nativa sobre ellos: desde navegar por una interfaz de usuario hasta manipular objetos físicos.

El proyecto ha surgido de una colaboración entre investigadores de Microsoft, KAIST (Instituto Avanzado de Ciencia y Tecnología de Corea), la Universidad de Mayrland, la Universidad de Wisconsin-Madison y la Universida de Washington.

La diferencia clave entre el sistema que propone Microsoft y otros, véase PALM-E y RT-2 de Google o ChatGPT for Robotics, es que Magma integra todas las capacidades necesarias en un único modelo base, y no depende de modelos separados para la percepción y el control.

Microsoft está entusiasmada con el proyecto, y posiciona a Magma como un paso hacia la inteligencia artificial con agentes (sistemas que pueden elaborar planes de forma autónoma y realizar tareas de varios pasos en nombre de un humano en lugar de responder preguntas sobre lo que ve).

Dado un objetivo descrito, Magma es capaz de formular planes y ejecutar acciones para lograrlo. Al transferir eficazmente el conocimiento de los datos visuales y lingüísticos disponibles de forma gratuita, Magma une la IA verbal, espacial y temporal para navegar por tareas y entornos complejos

A pesar del gran avance, Microsoft no es la única compañía que ha estado experimentando con agentes de IA. OpenAI, la compañía tras el bot conversacional ChatGPT, cuenta con Operator, que puede realizar tareas de interfaz de usuario en un navegador web. Por su parte, Google ha explorado propuestas similares con Gemini 2.0.

Como comenta Microsoft en el sitio web oficial del proyecto, "Magma está entrenado previamente en grandes cantidades de conjuntos de datos VL heterogéneos que incluyen imágenes, vídeos y datos robóticos". Lo cierto es que la compañía lleva una racha de éxitos envidiable, ya que hace unos días presentó Majorana 1, su nuevo chip cuántico que promete revolucionar el mercado.

Para ti
Queremos saber tu opinión. ¡Comenta!