Nos encanta la inteligencia artificial y todo lo que es capaz, que es mucho y muy bueno… o muy malo, después de todo Elon Musk ya nos ha advertido del riesgo de crear un dictador vitalicio que sumiera a la humanidad en un régimen permanente privado de libertades.

Si no te lo crees, no tienes más que echar un ojo a los últimos programas chinos de reconocimiento facial o a este terrorífico software capaz de predecir si vas a cometer un delito antes de que lo hagas.

Con lo nuevo de Google será como el que oye llover

Pero esta vez la inteligencia artificial de Google lo ha hecho, el milagro universal, lo que siempre habías deseado, lo que tu madre te advertía una y otra vez con aquella frase en forma de resignación de "lo que digo te entra por un oído y te sale por otro". Sí, con lo nuevo de Google será como el que oye llover.

Este fascinante proyecto se ha presentado en el Google Research Blog y bromas aparte, llega para resolver la dificulta de los sistemas automáticos de detectar nuestra voz con sonido exterior y por supuesto, con otras voces en el entorno. Y es que si ya es difícil para nosotros escuchar a alguien en medio de una multitud, imagínate para una máquina.

Así que Google se ha puesto manos a la obra para aislar las fuentes sonoras y el resultado no puede ser más espectacular (o terrorífico, según lo veas). Todavía queda mucho por pulir pero es prometedor.

¿Cómo funciona?

Nuestro cerebro es capaz de discernir tonos y concentrarse solo en una fuente bajo ciertas circunstancias, pero que lo haga un micrófono es algo más complejo. Este instrumento simplemente capta los sonidos, filtrarlos ya seria demasiado. Al menos por sí solo.

Pero si se integra en un sistema de machine learning que puede seleccionar unos sonidos, la cosa cambia. No, no hablamos de tomar el speech de alguien sobre ruido ambiental, sino de coger solo lo que dice una persona en un debate, por poner un ejemplo.

Esquema del funcionamiento de este software de Google. Google Research Blog

Para entrenarla, esta máquina tuvo que asistir a muchas fiestas. No es broma. Los investigadores montaban simulacros de eventos compuestos por fragmentos de audio y vídeo superpuestos con otros similares. Una vez llegaban, tenía que procesarlos conjuntamente con los movimientos faciales y los espectrogramas del audio. ¿Su misión? Determinar qué frecuencias y en qué momento correspondían a un interlocutor u a otro para generar una pista aislada. Lo que haces tú cada día sin darte cuenta.

Aunque ya es un hito, parece bastante asequible en el caso de que haya dos personas con voces diferentes hablando, como hemos visto en el ejemplo, pero el software de Google es capaz de mucho más, a pesar de encontrarse en fases preliminares.

Un software con grandes ventajas y grandes inconvenientes

Así que muy pronto los asistentes virtuales podrán obedecer tus órdenes en cualquier situación, pero también mejorarás considerablemente el sonido de tus llamadas y videoconferencias o las traducciones simultáneas.

Pero un software capaz de diferenciar voces, registrarlas y procesarlas también plantea un serio problema con la privacidad. Y es que un sistema como este pero mejorado es capaz de escuchar con atención una sola voz en una multitud en medio de la calle, aunque esté repleto de gente. Algo que por ejemplo podría hacer un tercero que tuviera interés en espiarte.

Desde luego, sería el complemento perfecto para cualquier micrófono o las cámaras que China está implantando en sus municipios. Parece sacado de una película de James Bond, pero está más cerca de lo que piensas.