Denuncian a Nvidia por infringir el 'copyright' de varios libros en entrenamiento de los LLM de NeMo Megatron

Una persona leyendo un e-book
Una persona leyendo un e-book - PEXELS
Publicado: martes, 12 marzo 2024 16:13

   MADRID, 12 Mar. (Portaltic/EP) -

Un grupo de escritores ha presentado una demanda colectiva en la que denuncian que la firma tecnológica Nvidia infringió sus derechos de autor en el entrenamiento de los modelos de lenguaje grande (LLM, por sus siglas en inglés) sobre los que se sustenta su plataforma NeMo Megatron.

   Nvidia NeMo es un conjunto de herramientas de Inteligencia Artificial (IA) conversacional creado para investigadores que trabajan en el reconocimiento automático de voz (ASR), el procesamiento de lenguaje natural (NPL) y la síntesis de texto a voz (TTS).

Una de estas herramientas es NeMo Megatron, una plataforma de índole empresarial que permite seleccionar datos de entrenamiento, y entrenar modelos a gran escala con billones de parámetros e implementarlos en inferencia. Actualmente admite tres tipos de LLM: GPT, T5/BART y BERT.

   Los escritores Abdi Nazemian, Brian Keene y Stewart O'Nan han presentado una denuncia colectiva contra Nvidia por utilizar sus obras "protegidas por derechos de autor para entrenar" esta herramienta de IA, tal y como se menciona en la demanda.

   En el documento se indica NeMo Megatron almacena sus LLM en la página web de la comunidad de IA Hugging Face, que ofrece información de cada uno de ellos y especifica los conjuntos de datos con los que han sido entrenados.

   Uno de estos conjuntos de datos es The Pile, desarrollado por EleutherAI, que contiene a su vez el archivo Books3. Según la demanda, Books3 "es un conjunto de datos derivados de una copia del rastreador Bibliotik", que combina libros de ficción y no ficción.

Esta biblioteca de contenido, que comprende 108 GB de datos, clasifica un total de 196.640 libros, entre los que se incluyen títulos firmados por los demandantes. En concreto 'Like a Love Story', de Nazemian; 'Last Night at the Lobster', de O'Nan; y 'Ghost Walk', de Keene.

   Según el documento, "los demandantes nunca autorizaron a Nvidia a hacer copias de sus obras, exhibirla o distribuirlas públicamente", ya que todos esos derechos de autor pertenecen de forma exclusiva a los demandantes, según la regulación de 'copyright' de Estados Unidos.

   Los escritores, de hecho, han insistido en que, a pesar de que Hugging Face eliminó en octubre de 2023 estos repositorios, Nvidia se adelantó para hacer "múltiples copias de las obras infringidas durante el entrenamiento de NeMo".

   Por ese motivo, los autores "han resultado perjudicados por los actos de infracción directa de derechos de autor de Nvidia", motivo por el que "tienen derecho a indemnización por daños y perjuicios legales, daños reales, restitución de ganancias y otros recursos".

   Ante esta denuncia, presentada en el Distrito Norte de California (Estados Unidos), Nvidia ha asegurado que su plataforma de IA NeMo se creó en pleno cumplimiento de la ley de derechos de autor, según ha adelantado The Wall Street Journal.

Leer más acerca de: