Article de Proyecto 451 (newsletter).

Los modelos de lenguaje gigantes como el GPT-4 de OpenAI , el PaLM 2 de Google y el Llama 2 de Meta, se han construido en parte a partir de millones de libros, artículos, chats y otros contenidos publicados en línea. Algunos de los creadores detrás de estas obras han demandado alegando violaciones de derechos de autor, mientras que otros quieren que se les pague por sus contribuciones. Pero, ¿cómo se puede medir el valor de un dato en particular cuando un modelo de IA gigante ha absorbido la mayor parte de lo que se ha publicado en línea en la última década o más?

Nick Vincent, profesor asistente de ciencias de la computación en la Universidad Simon Fraser, cerca de Vancouver, llama a esto “Apalancamiento de datos”: “Si las comunidades conocen mejor el valor de sus datos para los modelos de IA, podrán negociar más eficazmente el pago por su trabajo”.

Investigadores de la Universidad de Washington en Seattle, UC Berkeley y el Instituto Allen de IA, desarrollaron SILO, un nuevo modelo de lenguaje que pueda eliminar datos para reducir los riesgos legales. En el proceso, también desarrollaron una forma de medir cómo datos específicos contribuyen al resultado de un modelo de IA. “SILO podría proporcionar un camino a seguir para que los propietarios de datos obtengan el crédito adecuado (o se les pague directamente) cada vez que sus datos contribuyan a una predicción”, escribieron los investigadores.

“Como mostramos, el rendimiento del modelo se degrada significativamente si se entrena sólo en textos de bajo riesgo (por ejemplo, libros sin derechos de autor o documentos gubernamentales), debido a su tamaño y cobertura de dominio limitados”, escribieron.

Luego, los investigadores profundizaron en la maleza, utilizando los libros de Harry Potter de JK Rowling para ver si los datos individuales influyen en el rendimiento del modelo de IA. Comenzaron con una gran colección de libros publicados que forman parte de The Pile, un enorme conjunto de datos que se ha creado recopilando y almacenando gran parte de lo que se ha publicado en línea a lo largo de los años.

Luego crearon 2 “almacenes de datos”. Uno tenía todos los libros publicados, excepto el primer libro de Harry Potter. El otro almacén de datos excluyó los 7 libros de Harry Potter. Realizaron pruebas para ver cómo funcionaba el modelo al usar esos 2 almacenes de datos diferentes. Luego repitieron el ejercicio, excluyendo el segundo libro de Harry Potter, luego el tercero, y así sucesivamente. La idea de este análisis de “omisión” era ver qué tan bien se desempeñaba el modelo cuando faltaban estas piezas de contenido.

“Cuando los libros de Harry Potter se eliminan del almacén de datos, la perplejidad empeora”, descubrieron los investigadores. La perplejidad mide la precisión de los modelos de IA. Entonces, sin Harry Potter, el modelo no es tan bueno.

La conclusión más específica parece dolorosamente lógica, pero es importante: si se elimina un contenido específico, los LLM no pueden responder bien las preguntas sobre ese contenido. Y acá es cuando el concepto de “apalancamiento de datos” gana terreno: ¿Cuánto vale un solo libro para un modelo de IA gigante? (Business Insider, 4 minutos).

Més informació: