Article publicat per Jiachen T. Wang(1), Zhun Deng(2), Hiroaki Chiba-Okabe(4), Boaz Barak(3), Weijie J. Su(4)

1 Princeton University
2 Columbia University
3 Harvard University and OpenAI
4 University of Pennsylvania

 

Els sistemes d’intel·ligència artificial generativa (IA) s’entrenen en grans corpus de dades per generar nous fragments de text, imatges, vídeos i altres mitjans. Hi ha una creixent preocupació que aquests sistemes puguin infringir els interessos dels drets d’autor dels col·laboradors de dades de formació. Per abordar els reptes dels drets d’autor de la IA generativa, proposem un marc que compensi els propietaris de drets d’autor proporcionalment a les seves contribucions a la creació de contingut generat per IA. La mètrica de les contribucions es determina quantitativament aprofitant la naturalesa probabilística dels models moderns d’IA generativa i utilitzant tècniques de la teoria de jocs cooperatius en economia. Aquest marc permet una plataforma on els desenvolupadors d’IA es beneficien de l’accés a dades de formació d’alta qualitat, millorant així el rendiment del model. Mentrestant, els propietaris dels drets d’autor reben una compensació justa, impulsant el subministrament continuat de dades rellevants per a la formació del model generatiu. Els experiments demostren que el nostre marc identifica amb èxit les fonts de dades més rellevants utilitzades en la generació d’obres d’art, garantint una distribució justa i interpretable dels ingressos entre els propietaris dels drets d’autor.

Introducció

Els avenços recents en la intel·ligència artificial generativa (IA) han afectat profundament les indústries creatives, inaugurant una era de contingut generat per IA en literatura, arts visuals i música. Entrenats amb amplis conjunts de dades de material generat per humans, els models d’IA generativa, com ara els grans models de llenguatge i els models de difusió, ara poden produir contingut amb una sofisticació que rivalitza —i pot potencialment desplaçar— les obres d’artistes humans [28, 2, 13] . Aquesta capacitat creixent planteja preguntes crucials sobre els límits legals i ètics de l’autoria creativa, especialment pel que fa a la infracció dels drets d’autor per part dels models generatius [30, 32]. En conseqüència, diverses empreses d’IA estan actualment involucrades en demandes per denúncies de producció de contingut que potencialment infringeix els drets d’autor [32, 11].
Han sorgit esforços per mitigar la tensió entre els propietaris dels drets d’autor en les dades de formació i els desenvolupadors d’IA, que impliquen majoritàriament modificacions a l’entrenament del model generatiu o inferència per reduir la probabilitat de generar resultats infractors [35, 4, 33]. Tanmateix, aquestes modificacions poden comprometre el rendiment del model a causa de l’exclusió de dades d’entrenament d’alta qualitat i amb drets d’autor de la formació o les restriccions a la generació de contingut [19].

Clica aquí per accedir a l’article sencer