La empresa rival de ChatGPT destruyó millones de libros para entrenar su inteligencia artificial
Anthropic contrató en febrero de 2024 a Tom Turvey, exdirector de asociaciones del proyecto de escaneo de libros de Google Books, para encargarle obtener "todos los libros del mundo"

Si millones de personas en el mundo saben algo de inteligencia artificial es gracias a ChatGPT. El bot conversacional desarrollado por OpenAI, la compañía capitaneada por Sam Altman, se ha convertido casi en un sinónimo de esta tecnología. Y eso que lleva muy poco tiempo entre nosotros; fue lanzado a finales de 2022. Pero ha sido más que suficiente para volverse una herramienta idolatrada tanto por usuarios expertos como novatos.
A pesar de su fulgurante éxito, ChatGPT no es la única creación basada en inteligencia artificial. Uno de sus principales rivales es Claude. Considerado como uno de los chatbots más potentes e «inteligentes» del mundo, está desarrollado por la también empresa estadounidense Anthropic, fundada por Dario y Daniela Amodei en 2021. Hace unas semanas, liberó sus nuevos modelos Opus 4 y Sonnet 4, con capacidades de codificación líderes en el mercado y otras herramientas para desarrolladores.
Claude/Anthropic está en un momento algo delicado. Reddit, la plataforma social de comunidades online, demandó recientemente a la compañía de IA por enviar a sus bots para entrenarse con su contenido «por la cara». Ahora, se ha descubierto que destruyó millones de libros para construir sus modelos de inteligencia artificial.
El juez dictaminó que lo que había hecho Anthropic se consideraba «uso legítimo»
Hace unos días, documentos judiciales revelaron que Anthropic había gastado millones de dólares escaneando libros físicos para crear Claude, su bot conversacional. En el proceso, la empresa desencuadernó estos libros impresos para escanearlos y convertirlos en archivos digitales, para luego desechar los originales, con el único objetivo de entrenar su IA.
Según la decisión legal de 32 páginas, Anthropic contrató en febrero de 2024 a Tom Turvey, exdirector de asociaciones del proyecto de escaneo de libros de Google Books, para encargarle obtener "todos los libros del mundo". Si bien el escaneo destructivo es una práctica relativamente común en operaciones a menor escala, el enfoque de Anthropic resultó inusual debido a su magnitud.
El juez William Alsup dictaminó, finalmente, que esta operación de escaneo destructivo se consideraba uso legítimo, pero solo porque Anthropic los había adquirido legalmente y conservado las copias digitales para uso interno, y no distribución. El juez comparó el proceso con la "conservación de espacio" mediante la conversión de forma y lo consideró transformador.
La razón de Anthropic de adquirir millones de libros se debe, simplemente, a que para construir un modelo de IA se requieren una cantidad de datos masiva. Preferentemente, de alta calidad. Durante el entrenamiento, el sistema procesa el texto repetidamente para crear relaciones estadísticas entre palabras y conceptos. Los modelos entrenados con libros y artículos bien editados tienden a producir respuestas más coherentes y precisas que aquellos entrenados con texto de menor calidad (véase comentarios de YouTube).
Meta también tuvo polémica (otra más) recientemente tras descubrirse que había pirateado millones de libros por torrent para entrenar sus modelos de inteligencia artificial Llama 4. Concretamente, 81,7 TB de libros. De hecho, es capaz de reproducir casi a la perfección cerca de la mitad del primer libro de Harry Potter.