Un discours de Sarah Silverman, le 05 mai 2022 à New York.
Les auteurs américains Sarah Silverman, Richard Kadrey et Christopher Golden annoncent poursuivre Meta et OpenAI dans le cadre d’une double plainte pour violation du droit d’auteur.
Ils affirment n’avoir jamais consenti à ce que leurs livres protégés par le droit d’auteur soient utilisés comme matériel d’entraînement pour les grands modèles de langage utilisés (LLM) derrière ChatGPT d’OpenAI et LLaMa de Meta.
Un LLM est un type d’algorithme d’intelligence artificielle formé à l’aide de quantités massives d’informations provenant de livres et de textes sur l’internet pour apprendre des modèles de langage, la grammaire et le contexte jusqu’à ce qu’il puisse générer des textes semblables à ceux des humains et avoir des interactions de chat avec les utilisateurs.
Des modèles formés sur des sites pirates
Selon les plaintes déposées, les modèles « remixent les œuvres protégées par le droit d’auteur de milliers d’auteurs de livres – et de beaucoup d’autres – sans consentement, compensation ou crédit ».
La violation des droits d’auteur est l’une des nombreuses préoccupations des critiques de l’IA depuis que ChatGPT est devenu largement disponible en novembre, déclenchant le boom de l’IA générative et des questions sur la façon dont l’IA affectera le processus de créativité et de droits d’auteur.
Les poursuites judiciaires affirment que les LLM ont été formés sur des documents acquis illégalement, tels que ceux trouvés sur des sites web dits de « shadow libreary ». Le document de plainte contre OpenAI précise :
« On peut estimer que l’ensemble de données Books2 d’OpenAI contient environ 294 000 titres. Les seuls « corpus de livres basés sur l’internet » qui ont jamais offert autant de matériel sont des sites web notoires de « bibliothèques fantômes » (ndlr. shadow library) tels que Library Genesis (alias LibGen), Z-Library (alias B-ok), Sci-Hub et Bibliotik. Les livres rassemblés par ces sites sont également disponibles en masse via des systèmes de torrents ».
Les documents de plainte contre Meta font état de déclarations similaires. Ils renvoient aux sources où les données d’entraînement des livres ont été recueillies. Elle les divise en deux : La première provient du Projet Gutenberg, qui est une archive en ligne de livres dont les droits d’auteur sont dans le domaine public; et la seconde provient de la « Books3 section of ThePile », qui est un ensemble de données disponible sur le site d’hébergement de projets d’IA populaire, Hugging Face, et qui semble représenter l’ensemble de Bibliotik, mentionné plus haut.
Les plaignants sont représentés par les mêmes avocats qui représentent également les auteurs Mona Awad et Paul Tremblay, qui ont déposé une plainte en juin contre OpenAI pour violation du droit d’auteur.
Source : « ZDNet.com »