Claude Sonnet 4.5 quiere ser la mejor IA de programación del mundo

Anthropic apuesta por equilibrio entre coste y rendimiento, además de reducir sesgos en la interacción

Claude Sonnet 4.5 quiere ser la mejor IA de programación del mundo
Publicado en Tecnología
Por por Alex Verdía

La inteligencia artificial avanza a un ritmo vertiginoso, y cada pocos meses aparece un nuevo modelo que promete superar a los anteriores en capacidades y rendimiento. Esta vez es el turno de Anthropic, que ha presentado Claude Sonnet 4.5, descrito por la propia compañía como su modelo más potente hasta la fecha. El anuncio no llega solo: también se estrenan Claude Code 2.0, un agente en línea de comandos para desarrolladores, y el Claude Agent SDK, un kit para que las empresas creen sus propios agentes de programación basados en IA. Todo ello configura un paquete pensado para reforzar el papel de Claude como asistente de referencia en el terreno del software.

Qué ofrece Claude Sonnet 4.5 y por qué importa

Claude Sonnet 4.5 ocupa un lugar intermedio en la familia de modelos de Anthropic. Mientras Haiku es el más pequeño y Opus el más grande, Sonnet ha sido tradicionalmente el punto de equilibrio entre rendimiento y coste. La nueva versión apunta a mejorar de forma clara sus habilidades en programación, matemáticas y uso de ordenadores, hasta el punto de que Anthropic asegura en su web que es “el mejor modelo de programación del mundo”.

Los datos parecen respaldar esa afirmación: ha logrado un 77,2 % en el benchmark SWE-bench Verified, que mide la capacidad de resolver problemas de código en situaciones reales, superando a GPT-5 Codex de OpenAI (74,5 %) y a Gemini 2.5 Pro de Google (67,2 %). También lidera en OSWorld, prueba que evalúa tareas prácticas de uso de ordenador, con un 61,4 %, frente al 42,2 % de su versión previa. En finanzas, alcanzó un 92 % en el test de Vals AI, diseñado para medir las competencias de un analista financiero junior.

Más allá de los números, Anthropic destaca que Sonnet 4.5 es capaz de mantener coherencia en proyectos complejos durante más de 30 horas, algo especialmente difícil para modelos de este tipo, que suelen perder consistencia a medida que se alarga el contexto. En pruebas anteriores, modelos de la misma familia habían demostrado aguantar partidas de Pokémon durante un día completo o refactorizar código durante varias horas seguidas.

El modelo también incorpora mejoras en el manejo de hojas de cálculo, la navegación web y otras tareas de escritorio, integradas en extensiones como la de Chrome. Además, Anthropic ha añadido nuevas funciones a la experiencia de usuario, como la posibilidad de crear documentos, presentaciones o archivos directamente desde la conversación.

El lanzamiento incluye igualmente mejoras en Claude Code, que ahora permite guardar checkpoints, restaurar versiones anteriores y trabajar con una extensión nativa para VS Code. Todo ello convierte a Sonnet 4.5 no solo en un modelo conversacional, sino en un entorno práctico para programadores que quieren usar la IA como copiloto real en su día a día.

Por supuesto, los benchmarks de IA deben interpretarse con cautela, ya que existe riesgo de entrenamiento previo en los mismos o de diseñar pruebas que favorezcan a determinados modelos. Aun así, voces independientes como Simon Willison, desarrollador veterano y analista de referencia, han quedado impresionados con esta nueva versión, hasta el punto de considerar que supera al GPT-5 Codex, que hasta ahora era su herramienta favorita para programar.

Como siempre en este sector, la corona puede durar poco. Google prepara Gemini 3 y OpenAI no se quedará de brazos cruzados. Pero por ahora, Anthropic puede presumir de haber dado un paso adelante con Claude Sonnet 4.5, consolidando la serie como una de las más competitivas en programación y demostrando que todavía queda margen de mejora en el equilibrio entre potencia y eficiencia. La clave, según la propia compañía, está no solo en ofrecer más velocidad y precisión, sino en reducir conductas problemáticas de la IA como la adulación excesiva o las respuestas que fomentan ideas erróneas. Un detalle que cobra importancia en un contexto en el que los chatbots no solo ayudan a programar, sino que se están convirtiendo en compañeros de conversación para millones de personas.

Para ti
Queremos saber tu opinión. ¡Comenta!