Meta attaqué en justice en France sur le droit d’auteur et l’IA

Meta attaqué en justice en France sur le droit d'auteur et l'IA



La Société des Gens de Lettres (SGDL), le Syndicat national des auteurs et des compositeurs (SNAC) et le Syndicat national de l’édition (SNE), trois organisations représentant les droits des éditeurs et des auteurs français, ont annoncé hier avoir déposé plainte contre Meta.

Les plaignants accusent la société américaine d’avoir eu massivement recours à des œuvres protégées par le droit d’auteur afin d’entraîner ses modèles d’intelligence artificielle.

Et ce sans l’autorisation des auteurs et des éditeurs.

Books3, une archive controversée

Les œuvres concernées étaient notamment comprises au sein du corpus Books3. Ce corpus a été constitué par l’américain Shawn Presser à la fin des années 2020. Il est hébergé par un collectif d’archiviste amateurs connu sous le nom de The Eye mentionne l’AFP.

Cette archive, aujourd’hui hors ligne, contenait le texte d’un peu plus de 196 000 livres. Il était diffusé librement sur internet.

Shawn Presser avait défendu son projet en expliquant que l’objectif était de mettre à disposition de tous des corpus de qualité. L’idée était d’entraîner des modèles d’intelligence artificielle, afin de permettre à des concurrents d’OpenAI de perfectionner leurs propres modèles de langage

Meta forcé de reconnaître son utilisation

L’archive n’est pas passée inaperçue. Meta s’est notamment appuyé sur celle-ci afin d’entraîner son propre modèle de langage Llama.

Et l’utilisation de cette base de données a déjà été au centre d’un important procès mené par un groupe danois de protection des œuvres sous droit d’auteur, Rights Alliance.

Dans le cadre de cette procédure, Meta a publiquement reconnu avoir eu recours à Books3 pour l’entraînement de son modèle. La société se défend en invoquant le droit américain à « l’usage équitable » (Fair use) des œuvres. Une position partagée par d’autres acteurs de l’IA, comme OpenAI. Mais en reconnaissant le recours à cette base de données, Meta ouvre la voie à de nouvelles procédures en matière de droit d’auteurs.

Quel corpus pour les IA?

La question des corpus d’entraînement est un sujet délicat pour les concepteurs d’IA. Quand ils ne se heurtent pas aux réglementations sur l’usage des données personnelles, c’est donc le droit d’auteur qui les gêne.

Le contenu exact des corpus utilisés pour entraîner les IA est un sujet houleux.

Lors du sommet parisien pour l’action sur l’IA en février, plusieurs organisations avaient signé une charte visant à édicter les grands principes de respect du droit d’auteur dans l’entraînement des modèles d’IA.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.