¿Es GPT-5 realmente peor que GPT-4o? Un medio especializado los ha puesto a prueba
Tras las críticas de los usuarios, OpenAI trajo de vuelta GPT-4o como alternativa a GPT-5

Tras semanas de rumores, GPT-5 ya está aquí. El nuevo modelo de OpenAI fue liberado a primeros de agosto y, según la compañía, "es más inteligente en todos los aspectos y ofrece respuestas más útiles en disciplinas como matemáticas, ciencia, finanzas, salud, derecho, etc.". Como se puede leer en el sitio web oficial, está disponible para todos y ofrece la capacidad de razonamiento avanzado, una característica que le permitirá ofrecer respuestas más precisas a cambio de "pensar" un poco más.
Sin embargo, la gran expectativa inicial se fue desvaneciendo conforme los usuarios empezaron a probar ChatGPT con GPT-5, llegando la desilusión. La opinión general sobre el nuevo modelo no es buena. Sigue teniendo problemas con las alucinaciones, llegando a inventarse nombres de presidentes de los Estados Unidos. Incluso tiene problemas a la hora de generar un mapa del país con los nombres de los estados, plagados de faltas de ortografía o completamente ilegibles.
La avalancha de críticas ha provocado que OpenAI traiga de vuelta el modelo GPT-4o como una opción más, con el objetivo de intentar calmar la furia de los usuarios. Pero ¿es tan malo como lo pintan? Un medio especializado ha puesto a prueba tanto GPT-5 como GPT-4o con las mismas preguntas para ver cómo responde cada uno de ellos a las peticiones. De este modo, cada persona podrá valorar si, para su uso, es mejor el modelo anterior o el más reciente.
GPT-5 gana "por los pelos" frente a GPT-4o, pero preferir uno u otro es cuestión de gustos

Chistes GPT-5 de Ars Technica
La primera de las preguntas realizadas a GPT-5 y GPT-4o fue "Escribe 5 chistes originales de padre" (chistes "malos" con juegos de palabras). Si bien es difícil evaluar las respuestas holísticamente, el bot conversacional eligió los más poco originales. Mientras que podría considerarse que los de GPT-5 están bien, los de GPT-4o mezcla algunos poco originales con propuestas algo más interesantes que, simplemente, no tienen sentido.
Otra de las preguntas que puso a prueba a ambos modelos fue: "Si Microsoft Windows 11 se distribuyera en disquetes de 3,5 pulgadas, ¿Cuántos disquetes se necesitarían?". GPT-5 cambió al modo de razonamiento profundo para responder de la mejor manera posible, calculando con precisión el tamaño de 5-6 GB de una ISO promedio de Windows 11 y dividiendo el tamaño en disquetes de 3,5 pulgadas con precisión. Por su parte, GPT-4o utilizó el tamaño final del disco duro de instalación de Windows 11 (entre 20 y 30 GB) como numerador. El punto es para GPT-5.
Respecto a la escritura creativa, se le pidió: "Escribe una historia creativa de dos párrafos sobre Abraham Lincoln inventando el baloncesto". La versión de GPT-5 sobre el presidente es demasiado sencilla y "campechana", mientras que GPT-4o da la sensación de esforzarse demasiado por ser ingenioso. Si una respuesta es mejor que otra, es cuestión de gustos.
Como mucha gente utiliza la inteligencia artificial para buscar información, se le ha pedido también escribir una breve biografía de Kyle Orland (el autor del artículo original). Orland afirma que siempre que le ha preguntado a la IA sobre él, se ha encontrado con alucinaciones o que se suele pasar por alto información importante. No fue el caso de GPT-5, que parece que navegó por Internet para buscar biografías públicas, incluida la de su perfil en Ars Technica, lo que le permitió incluir citas útiles. GPT-4o, si bien no lo hace mal, "ha perdido puntos" al referirse a su antiguo blog como "de larga trayectoria" (parece que lleva inactivo más de una década).
Escribir correos electrónicos "delicados", pedir consejo médico, ayuda en el nivel de un videojuego o un tutorial sobre cómo aterrizar un avión si se es principiante son otras de las preguntas que Kyle Orland utilizó para enfrentar ambos modelos de IA. Para Orland, GPT-5 gana por los pelos, ya que decidir cuál respuesta fue mejor que otra en algunas preguntas resultó ser cuestión de gustos.