Un estudio señala que Meta AI puede reproducir un libro de Harry Potter, o al menos la mitad
Llama 3.1 70B ha memorizado el 42% del primer libro de Harry Potter

Parece que Meta tiene predilección por los juzgados. Desde el escándalo de Cambridge Analytica que saltó a la fama en 2018 por conocerse que usaba de manera indebida los datos personales de millones de usuarios de Facebook para la creación de perfiles psicológicos con fines políticos, sin su consentimiento, la empresa de Mark Zuckerberg va de juicio en juicio y de polémica en polémica.
Meta, como buena empresa tecnológica, está muy centrada en desarrollar su inteligencia artificial, teniendo sus propios modelos denominados Llama AI. Como hemos comentado en repetidas ocasiones en Urban Tecno, para entrenar la IA es necesario disponer de un amplísimo abanico de datos. Si bien existen repositorios libres gratuitos para tal fin, los recursos que ofrecen son muy limitados. Y las bibliotecas más completan piden bastante dinero por acceder a la información.
Así que Meta, ni corta ni perezosa, parece que descargó 81,7 TB de datos protegidos de diversas bibliotecas a través del protocolo BitTorrent y de manera ilegal para «alimentar» su inteligencia artificial, lo que la llevó a ser denunciada por varios autores por supuesta infracción de derechos de autor. Puede que por ese entrenamiento Llama AI sea capaz de reproducir casi la mitad de un libro de Harry Potter a la perfección.
El último modelo Llama de Meta ha memorizado casi la mitad de Harry Potter y la Piedra Filosofal
Aunque digan lo contrario, muchas empresas dedicadas al desarrollo de la IA han utilizado contenido para entrenar sus sistemas sin el consentimiento expreso de los usuarios y/o creadores. Uno de los casos más recientes es el de Reddit denunciando a Anthropic, la desarrolladora de Claude, por haber accedido a la plataforma miles de veces en los últimos meses con el objetivo de consumir su contenido para entrenarse.
Una nueva investigación, centrada más en libros que en artículos disponibles en Internet, ha devuelto algunos hallazgos muy interesantes que podrían ser interesantes tanto para las personas demandantes como las demandadas. Fue publicado el mes pasado por un equipo de informáticos y juristas de las universidades de Stanford, Cornell y Virginia Occidental.
Se estudió si cinco modelos populares abiertos (tres de meta, uno de Microsoft y otro de EleutherAI) eran capaces de reproducir texto de Books3; una colección de libros ampliamente usada para la formación de estudiantes de maestría en derecho. Muchos de ellos están protegidos por derechos de autor.
Junto a la investigación se adjunta un gráfico que muestra lo fácil que ha resultado para un modelo generar fragmentos de varias partes de Harry Potter y la Piedra Filosofal. Cuanto más oscura sea la línea del gráfico, más fácil será reproducir esa parte del libro.
Las tres filas inferiores pertenecen a modelos Llama de Meta. El modelo Llama 3.1 70B (un modelo mediano de Meta lanzado en julio de 2024) tiene muchas más probabilidades de reproducir texto de Harry Potter que cualquiera de los otros cuatro modelos. El estudio estima que Llama 3.1 70B ha memorizado el 42% del primer libro de Harry Potter con la suficiente precisión como para reproducir fragmentos exactos, al menos, la mitad de las veces.