Solo unas faltas ortográficas desbaratan la IA de detección de odio de Google

Un grupo de investigadores ha encontrado que añadir algunos cambios en las palabras puede estropear el funcionamiento de Perspective, la IA de Google.

Publicado en Google

13/09/2018 22:59

El trabajo de Google en Inteligencia Artificial se refleja en muchas de las herramientas que utilizamos de la compañía, aunque a veces no sepamos apreciarlo. Por el momento, ya vamos conociendo algunas ventajas de esa innovación, como la IA que coloriza fotos en blanco y negro en apenas segundos.

Google

Sin embargo, la Inteligencia Artificial de Google también tiene fallos, especialmente la que se dedica a detectar mensajes de odio en la red. Su nombre es Perspective y unos investigadores han encontrado que su funcionamiento no es el deseado cuando se topa con algunos fallos ortográficos.

La IA de detección de Google es fácilmente evitable

La difusión de mensajes de odio se ha convertido en uno de los grandes problemas de grandes compañías tecnológicas como Google y Facebook. La Unión Europea no les pierde la vista y analiza todos sus pasos, amenazándoles con serias multas si no eliminan ese tipo de contenido en menos de una hora.

Para evitar esa posible situación indeseada, Google ha desarrollado una Inteligencia Artificial que se dedica a encontrar esos mensajes de odio para acabar con ellos cuanto antes. Ese es el trabajo de Perspective que, a simple vista, parece una herramienta muy eficaz en su labor.

Introducir varios espacios entre palabras o fallos ortográficos intermedia en la eficacia de Perspective

Pero no todo es lo que parece, como ha demostrado un grupo de investigadores en su interesante estudio. Tommi Grondahl, Mauro Conti, Luca Pajola, N. Asokan y Mika Juuti han comprobado que simples cambios en las estructuras de las frases o fallos ortográficos desbaratan por completo a Perspective a la hora de encontrar esos mensajes tóxicos publicados.

Esta Inteligencia Artificial, que comenzó en 2016, funciona dándole una puntuación a cada mensaje evaluando su nivel de toxicidad. Sin embargo, añadir varios espacios entre las palabras, faltas de ortografías intencionadas o alguna palabra sin sentido entre los elementos de la oración hacen que esa evaluación no sea la adecuada.

Parece que los expertos de Google aún no han pulido algunos detalles de Perspective, que aún no es capaz de detectar el contexto de algunas palabras. Por ejemplo, "I love you" ("Te quiero") solo tiene un 0,02% de toxicidad para la IA, mientras que "I fucking love you", que engrandece la expresión de cariño, tiene un 0,77%.

Entre las características asociadas por la gran G a la toxicidad se encuentran la grosería, las faltas de respeto o la irracionalidad. Sin embargo, las muestras de cariño no deberían ser asociadas con estos términos anteriores.

Google y la importancia de la palabra "amor"

Ya hemos hablado que la simple introducción de errores ortográficos o palabras sin sentido en medio de una frase puede alterar completamente la evaluación de la Inteligencia Artificial Perspective. El ejemplo perfecto es el término "love" ("Amor"), que ayuda a colarle a la IA mensajes de odio o tóxicos.

Tal y como han descubierto los investigadores, la presencia de la palabra "love" en una frase que transmite odio permite que el nivel de toxicidad de la misma para Perspective descienda desde un 0,79% a un 0,00%. De esta forma, tan solo una palabra es capaz de romper con todo el aprendizaje de Perspective hasta el momento.

Otro de los grandes obstáculos de la IA en la búsqueda de mensajes tóxicos son los errores ortográficos o cambiar algunas letras por números. Al incluir varios espacios entre palabras, olvidar las tildes o escribiendo mal intencionadamente, Perspective cree que el nivel de toxicidad ha bajado.

De esta forma, es fácil engañar a la Inteligencia Artificial de Google y publicar mensajes de odio manteniendo la legibilidad y maldad del contenido original. Google sigue teniendo problemas con las publicaciones tóxicas en su plataforma, mientras la Unión Europea le sigue los pasos.

Si la gran G quiere mejorar la comunidad global que ha creado, debe trabajar inmediatamente en enseñarle a su IA a entender algo mejor el contexto de las oraciones, detectando al momento la inclusión de errores tipográficos o palabras como "love" para saltar su barrera.