Reddit, harto de que usen su contenido para entrenar la IA, ha tomado una triste decisión: no aparecer en el "archivo de Internet"
Reddit, en 2024, firmó acuerdos de colaboración con Google y OpenAI para ofrecer su contenido a la IA

Para los que llevamos años navegando por Internet, es imposible no ver su estado actual y no entristecerse. La red, aparte de estar plagada de publicidad invasiva que impide acceder a los sitios web con comodidad, se ha llenado de contenido generado por inteligencia artificial que aporta poco o nada para los usuarios. Por este motivo, muchos (entre los que me encuentro) suelen acompañar sus búsquedas en Google de la palabra "Reddit" al final.
Si bien no es tan conocido en el Internet hispanohablante, Reddit es una combinación de red social y plataforma de noticias donde los usuarios pueden crear, compartir y votar contenido de una amplísima variedad de temas. Cada tema tiene su propia comunidad, la cual recibe el nombre de subreddits. Uno de sus puntos fuertes es el anonimato, ya que la plataforma/red social no permite interactuar sin revelar tu identidad real, algo muy valorado en estos tiempos oscuros cibernéticos.
Reddit lleva con nosotros de 2005. Está disponible en la mayor parte del mundo (excepto en Indonesia sin DNS y China), lo que significa que alberga muchísimas discusiones y contenido creado por los propios usuarios. Eso es un filón para las compañías especializadas en inteligencia artificial, de modo que la plataforma ha tomado una complicada decisión: no aparecer en Internet Archive.
¿Una medida de protección o una medida económica?
Internet Archive, también conocido como Wayback Machine, es un archivo digital que permite a los usuarios acceder a versiones antiguas de páginas web, incluso las desaparecidas o modificadas, a través de capturas de pantalla. Su nombre es bastante adecuado, ya que es como "viajar en el tiempo" en Internet. Una curiosa manera de ver cómo ha cambiado la red en un par de décadas.
Reddit ha anunciado que comenzará a bloquear Wayback Machine para que no indexe la mayor parte de su contenido. En el futuro, Wayback Machine solo podrá indexar la página principal de Reddit.com, lo que significa que los subreddits y publicaciones individuales estarán fuera de su alcance. Tim Rathschmidt, portavoz de Reddit, afirmó que el bloqueo se impone porque "hemos tenido conocimiento de casos en los que empresas de IA violan las políticas de la plataforma, incluidas las nuestras, y extraen datos de Wayback Machine".
A principios de junio, Reddit denunció que los bots de Anthropic, la compañía de IA tras el desarrollo del chatbot Claude, habían accedido cientos de miles de veces a la plataforma desde julio de 2024. Si bien Anthropic negó las acusaciones, asegurando que había prohibido a sus bots acceder al contenido de Reddit, lo cierto es que las publicaciones de la plataforma podrían valer miles de millones de dólares.
Si bien parece ser una medida de protección frente a las empresas de IA, en realidad podría ser una cuestión de dinero. En 2024, Reddit llegó a un acuerdo con Google para que su contenido estuviera disponible para la formación en IA. Unos meses después, firmó otro acuerdo con OpenAI. Cuando hay billetes de por medio, parece que a Reddit no le importa que usen el contenido generado por los usuarios para entrenar a ChatGPT y compañía.