Milers d'obres piratejades utilitzades per entrenar eines d'IA

“Milers d’obres piratejades utilitzades per entrenar eines d’IA”, vist a Proyecto451

Article de Proyecto 451 (newsletter).

Un reciente artículo publicado en The Atlantic dió a conocer que obras pirateadas de renombrados autores como Zadie Smith, Stephen King, Rachel Cusk y Elena Ferrante, entre otros, fueron utilizadas para entrenar herramientas de Inteligencia Artificial. Según el artículo, varias empresas, incluyendo Meta y Bloomberg, emplearon un análisis del conjunto de datos llamado “Books3”, que contiene más de 170.000 títulos, para desarrollar sus modelos de IA. Books3 sirvió como material de entrenamiento para LLaMA de Meta, así como otros modelos de lenguaje notable como ChatGPT de OpenAI, BloombergGPT de Bloomberg y GPT-J de EleutherAI. El conjunto de datos consiste en aproximadamente un tercio de libros de ficción y dos tercios de libros de no ficción, la mayoría publicados en las últimas dos décadas.

Como ya hablamos en ediciones anteriores, el uso de obras pirateadas para entrenar herramientas de Inteligencia Artificial ha generado preocupación por la infracción de derechos de autor. De hecho, tres escritores (Sarah Silverman, Richard Kadrey y Christopher Golden) presentaron una demanda alegando que sus obras protegidas por derechos de autor se utilizaron ilegalmente en la formación del LLaMA de Meta. El análisis de Books3 confirmó que los escritos de los demandantes eran efectivamente parte del conjunto de datos (Gizmodo, 3 minutos).

Si bien algunos argumentan que el uso de obras pirateadas permite que cualquiera pueda desarrollar herramientas de inteligencia artificial generativa, persisten las preocupaciones sobre el control de la tecnología por parte de las grandes empresas. Aunque Meta se negó a comentar sobre el uso de Books3, un portavoz de Bloomberg confirmó que su empresa había utilizado el conjunto de datos para capacitación. El portavoz también afirmó que Books3 no se utilizará en futuras versiones de BloombergGPT (Fagenwasanni, 3 minutos).