Una prueba de voz con IA demuestra hasta dónde ha llegado esta tecnología. La comunidad está inquietada

Hay usuarios preocupados de engancharse emocionalmente a los asistentes de voz si se vuelven así de naturales

05/03/2025 17:00

Los asistentes de voz se están beneficiando de los avances en inteligencia artificial. Aunque Google Assistant, Alexa y Siri, por mencionar algunos ejemplos, llevan unos cuantos años entre nosotros, siguen chirriando a muchas personas por sus voces "carentes de alma", con entonaciones robóticas que provocan que la interacción no se sienta igual de natural que al hablar con una persona de carne y hueso.

Tecnología

La inteligencia artificial puede dotar de personalidad a dichos sistemas. Solo hay que ver de lo que es capaz el modo avanzado de ChatGPT; la sensación de estar conversando con una persona real, ya que responde de forma casi instantánea y natural. Además, se siente más personal.

Sin embargo, pocas demostraciones han sido tan sorprendentes y perturbadoras a la vez como la del nuevo modelo de voz conversacional de la startup Sesame, que ha dejado con la boca abierta a los usuarios; algunos sorprendidos y otros preocupados/nerviosos/atemorizados.

La película 'Her' está a punto de volverse real

Sesame es una startup dedicada al desarrollo de asistentes de voz impulsados por inteligencia artificial con los que mantener conversacionales naturales con los usuarios. A finales del pasado mes de febrero, la compañía liberó una demostración de su nuevo modelo conversacional (CSM), el cual va más allá del "valle inquietante".

Con la posibilidad de hablar con Maya o Miles, el nuevo modelo de Sesame se siente increíblemente natural, pudiendo mantener una conversación fluida durante mucho tiempo. Si se le dice a alguien que está hablando por teléfono con una persona real, en lugar de con una IA, se lo creería. Algunos usuarios que lo han probado aseguran estar "preocupados de sentirse emocionalmente apegados a un asistente de voz".

Probé la versión de demostración y me sorprendió mucho lo humana que resulta. Estoy un poco preocupado por si voy a empezar a sentirme emocionalmente apegado a un asistente de voz con este nivel de sonido similar al humano

Al hablar con Maya o Miles, se puede apreciar que la voz sintetizada es expresiva y dinámica, imitando los sonidos de las respiraciones, risas, interrupciones e, incluso, a veces se traba con las palabras y se autocorrige. Aunque puedan parecer errores de programación, en realidad son intencionados, ya que los seres humanos no somos perfectos al hablar y, a veces, hacemos lo mismo.

El objetivo de Sesame es lograr la "presencia de la voz", que es la cualidad mágica que hace que las interacciones habladas parezcan reales. La compañía no solo quiere crear interlocutores que procesan solicitudes, sino que participan en diálogos que generan confianza y seguridad.

Las comparaciones son odiosas, pero inevitables. Los usuarios que han probado el nuevo modelo de Sesame y el modo de voz avanzado de ChatGPT aseguran que el desarrollo de OpenAI no es tan realista ni natural. Además, ChatGPT se niega a cambiar su "estado de ánimo" y adoptar tonos de enfado o tristeza, cosa que no es problema para Maya y Miles.

Sesame utiliza dos modelos de IA que trabajan juntos (una red troncal y un decodificador) basados en la arquitectura Llama de Meta, procesando texto y audio intercalados. La compañía entrenó tres tamaños de IA, y el más grande utilizó 8.300 millones de parámetros en aproximadamente un millón de horas de audio principalmente en inglés.