OpenAI, desesperada por las preguntas sobre sus datos y los libros piratas que utilizó para «alimentarse»

ChatGPT habría sido entrenado con libros procedentes de LibGen, una de las bibliotecas ilegales más populares de Internet

OpenAI, desesperada por las preguntas sobre sus datos y los libros piratas que utilizó para «alimentarse»
ChatGPT rodeado de libros | Imagen con fines ilustrativos
Publicado en Tecnología

Para que una bot conversacional como ChatGPT o Claude sea «inteligente», primero hay que entrenarlo. ¿Y cómo se hace eso? Pues «nutriéndolo» con grandes conjuntos de datos. Estos datos son de dominio público y autorizado, y pueden proceder de libros, artículos, documentos, páginas web, conversaciones reales, etc. El problema es que los repositorios que albergan este tipo de información son finitos, y las grandes compañías tecnológicas deben buscar otras fuentes para seguir avanzando en el desarrollo de sus herramientas.

Si bien existen «almacenes digitales» privados que pueden proporcionar acceso a los gigantes del sector de la IA a cambio de un pago —el cual, dicho sea de paso, no suele ser pequeño—, es sabido que algunas grandes compañías utilizan grandes volúmenes de datos protegidos sin el consentimiento de sus autores. Uno de los casos más conocidos es el de Meta, que descargó mediante torrent más de 81 TB de libros piratas de fuentes como LibGen, Z-Library y Anna's Archive.

Varios autores se unieron para demandar a Meta por utilizar sus obras para entrenar a los modelos de inteligencia artificial de la compañía de Mark Zuckerberg. Contra todo pronóstico, un juez federal de San Francisco desestimó casi todo el caso por no presentar suficientes pruebas. OpenAI también se enfrenta a una demanda colectiva de autores, y su caso podría ser más grave al intentar ocultar las evidencias.

OpenAI asegura que eliminó los datos porque dejaron de utilizarlos

Varios autores acusan a la compañía liderada por Sam Altman de entrenar a ChatGPT ilegalmente con sus obras. Al parecer, antes del lanzamiento del bot conversacional, OpenAI eliminó los conjuntos de datos, conocidos como 'Libros 1' y 'Libros 2', y gran parte de estos conjuntos de datos tomaban el contenido de la biblioteca LibGen (Library Genesis). Esta fuente es conocida por albergar cientos de miles de libros en diversos idiomas para su descarga gratuita.

OpenAI argumenta que dichos conjuntos de datos dejaron de utilizarse en 2022, lo que provocó una decisión interna de eliminarlos. Sin embargo, los autores creen que hay algo más. Observaron que OpenAI pareció cambiar de opinión al retractarse de su afirmación de que la "no utilización" de los conjuntos de datos era motivo de eliminación, y posteriormente afirmar que todas las razones de eliminación, incluida la "no utilización", debían ampararse en el secreto profesional.

La semana pasada, la magistrada estadounidense Ona Wang ordenó a OpenAI que compartiera todas las comunicaciones con los abogados internos sobre la eliminación de los conjuntos de datos, sí como "todas las referencias internas a LibGen que OpenAI haya redactado o retenido sobre la base del privilegio abogado-cliente".

El juez dictaminó que la compañía no podía bloquear el descubrimiento de "no uso" simplemente eliminando algunas palabras de presentaciones anteriores que habían estado en el expediente durante más de un año: "OpenAI ha estado debatiendo si la 'falta de uso' como 'motivo' para la eliminación de los Libros 1 y 2 es un motivo privilegiado. No puede indicar un 'motivo' (lo que implica que no es un motivo privilegiado) y luego afirmar que el 'motivo' es privilegiado para evitar ser descubierto".

OpenAI está intentando evitar por todos los medios revelar las razones que llevaron a la compañía a eliminar los conjuntos de datos. Los autores creen que exponer la justificación de OpenAI podría ayudar a demostrar que el creador de ChatGPT infringió deliberadamente los derechos de autor al piratear los datos del libro.

Para ti
Queremos saber tu opinión. ¡Comenta!