Medios de comunicación bloquean el acceso de Internet Archive para evitar el 'web scrapping' destinado a entrenar IA

Archivo - El servicio web de Internet Archive y Wayback Machine.

- INTERNET ARCHIVE - Archivo

Publicado: viernes, 30 enero 2026 10:43

MADRID, 30 Ene. (Portaltic/EP) -

Algunos medios de comunicación han decidido bloquear el acceso de Internet Archive a sus publicaciones debido a que los rastreadores web utilizan esta biblioteca digital para recoger su contenido y utilizarlo en el entrenamiento de modelos de inteligencia artificial (IA).

Cabeceras como The Guardian y The New York Times y grupos editores como USA Today han empezado a introducir en sus páginas web limitaciones a los 'bots' rastreadores (robots.txt) para que no puedan extraer sus artículos, y las han extendido a Internet Archive (archive.org_bot y ia_archiver-web.archive.org).

El motivo se encuentra en que esta biblioteca digital sin ánimo de lucro se dedica a la preservación de internet y tiene un archivo histórico, Wayback Machine, que captura páginas web para que estén accesibles para cualquier persona. Entre ellas se encuentran artículos de medios de comunicación, incluso muchos protegidos tras un muro de pago.

Este archivo histórico es un recurso valioso para las empresas que entrenan modelos de inteligencia artificial, las cuales utilizan 'bots', conocidos como rastreadores de IA, para extraer los contenidos disponibles de manera abierta y gratuita, en una práctica conocida como 'web scrapping'.

Ello ha suscitado la preocupación de los medios de comunicación que intentan proteger sus contenidos de esta actividad, que han detectado que una parte del contenido que les roban estos 'bots' de IA procede de Internet Archive, como informan en Nieman Lab.

Algunos de los medios afectados, incluso, han demandado a empresas de IA por el uso que han hecho de sus publicaciones. Es el caso, por ejemplo, The New York Times, que demandó a OpenAI, Microsoft y Perplexity, y de The Wall Street Journal y New York Post, que demandaron a Perplexity.

Según un análisis hecho por Nieman Lab a partir de la base de datos del periodista Ben Welsh sobre los medios de comunicación que han bloqueado el acceso a los rastreadores, a finales de diciembre 241 páginas de noticias de nueve países habían deshabilitado al menos uno de los rastreadores de Internet Archive. La mayoría de esos sitios web correspondían al conglomerado USA Today.

Autonomías

Portales temáticos

Medios de comunicación bloquean el acceso de Internet Archive para evitar el 'web scrapping' destinado a entrenar IA

Últimas noticias sobre estos temas

Contenido patrocinado

Más leídasofrecido por