Gemini estrena edición de imágenes con IA para plantar cara a OpenAI

El pulso entre gigantes tecnológicos por dominar la generación visual

Gemini estrena edición de imágenes con IA para plantar cara a OpenAI
Publicado en Tecnología
Por por Alex Verdía

La guerra de la inteligencia artificial no solo se libra en el terreno de los chatbots de texto. Desde hace meses, el verdadero campo de batalla está en las imágenes generadas por IA, y Google acaba de mover ficha para no quedarse atrás frente a OpenAI. Su última novedad,Gemini 2.5 Flash Image, promete darle a los usuarios un nivel de control mucho más preciso a la hora de editar fotos con simples instrucciones de texto.

El lanzamiento, que ya empieza a desplegarse en la app de Gemini, en su API y en plataformas para desarrolladores como AI Studio y Vertex AI, es la respuesta directa a la popularidad del generador de imágenes de ChatGPT, que disparó el uso de la aplicación de OpenAI con la moda de las fotos estilo Studio Ghibli.

Google lo sabe: si quiere reducir la distancia con ChatGPT, necesita una herramienta que enganche al gran público. Y este nuevo modelo, según la compañía, es capaz de hacer ediciones limpias y realistas, sin esos errores grotescos que suelen aparecer en otros generadores cuando intentan, por ejemplo, cambiar el color de una camiseta sin deformar la cara de la persona que la lleva.

El reto de la calidad y la precisión

Uno de los grandes problemas de la IA generativa de imágenes es que, cuando se le pide una edición específica, suele meter la pata en detalles importantes: rostros que quedan irreconocibles, animales que parecen salidos de una pesadilla o fondos que cambian sin que nadie lo haya pedido.

Con Gemini 2.5 Flash Image, Google asegura haber resuelto buena parte de esos fallos. “Estamos llevando la calidad visual a otro nivel, y el modelo sigue mejor las instrucciones”, explicó Nicole Brichtova, responsable de producto en Google DeepMind.

De hecho, antes del anuncio oficial, el modelo ya estaba dando que hablar en LMArena, una plataforma de evaluación colectiva de modelos. Allí aparecía bajo el misterioso alias de “nano-banana”, un pseudónimo con suficientes pistas como para que muchos sospecharan que Google estaba detrás. Y acertaron.

El movimiento de Google llega en un momento en que los gigantes tecnológicos se pisan los talones en este terreno. OpenAI lanzó en marzo su generador de imágenes nativo dentro de GPT-4o, que causó un auténtico furor viral. Meta, por su parte, anunció hace unos días que licenciaría modelos de Midjourney, una de las startups más punteras en generación visual. Y mientras tanto, Black Forest Labs, el unicornio alemán respaldado por Andreessen Horowitz (a16z), se mantiene como líder en los benchmarks de calidad con sus modelos FLUX.

El usuario en el centro (y las métricas en juego)

Los números son claros: ChatGPT supera los 700 millones de usuarios semanales, mientras que Gemini apenas alcanza los 450 millones mensuales, según reconoció Sundar Pichai en la última llamada de resultados. La brecha es enorme, y Google necesita novedades de peso para cerrar el hueco.

La apuesta por las imágenes no es casualidad. Si la calidad es buena y los resultados son fáciles de obtener, la experiencia se vuelve adictiva. OpenAI ya lo demostró cuando sus servidores casi ardieron por la avalancha de usuarios que se lanzaron a generar memes con GPT-4o. Ahora Google espera que su editor de imágenes genere el mismo efecto llamada y convierta a Gemini en una aplicación más atractiva para quienes buscan algo más que respuestas escritas.

Para ti
Queremos saber tu opinión. ¡Comenta!