Pourquoi la proposition de loi, examinée ce mercredi au Sénat, pourrait renverser le rapport de force entre IA et auteurs

Une loi qui viendrait changer les règles du jeu entre les géants de l’IA et les auteurs ? Ce mercredi 8 avril, la proposition de loi qui vise à davantage protéger les créateurs et artistes face à l’intelligence artificielle est examinée en séance publique au Sénat. Validé par le Conseil d’État en mars et adopté en commission une semaine plus tôt, le texte porté par les sénateurs Laure Darcos (Horizons), Agnès Evren (Les Républicains) et Pierre Ouzoulias (PCF) cristallise les tensions entre deux camps.

D’un côté, ses opposants, les développeurs d’IA comme OpenAI et les start-up du numérique européennes ne veulent rien changer au système actuel. Elles ne souhaitent pas avoir à respecter des règles plus lourdes que celles qui ont permis à OpenAI de lancer, le premier, son chatbot IA ChatGPT en novembre 2022. De l’autre, ses partisans (principalement les ayants droit, les artistes, les comédiens, etc) veulent davantage protéger les créateurs et leurs créations qu’ils estiment « pillées » par des outils qui les imitent et les concurrencent.

À lire aussi : Meta (Facebook, Instagram, WhatsApp) accusé d’avoir pillé des livres pour son IA en France

Le monde du cinéma dénonce un « pillage en règle » de l’IA « ici et maintenant »

Une nouvelle présomption d’utilisation pour Google, OpenAI ou Mistral, qu’est ce que ça veut dire ?

En apparence pourtant, la proposition de loi sénatoriale transpartisane vise seulement à modifier un élément procédural : le régime de la preuve de violation du droit d’auteur. L’objet principal du texte est en effet d’imposer une nouvelle présomption d’utilisation aux entreprises de l’IA comme Google, OpenAI ou Mistral. Ce changement est loin d’être anodin. Il toucherait ni plus ni moins au modèle économique des développeurs d’IA. Dans leur texte, les sénateurs à l’origine de la proposition de loi souhaitent en fait rééquilibrer un système décrit comme étant totalement déséquilibré, au profit des géants de l’IA.

Pour former leurs outils d’IA, les sociétés comme OpenAI ou Google ont largement pioché dans le Web. Leurs robots d’indexation ont collecté sans distinguer données publiques et données protégées par le droit d’auteur, données qui ont ensuite servi à entraîner les agents conversationnels. Or, dans ce schéma, ces données ont été collectées et utilisées « gratuitement », sans versement de la moindre rémunération par les entreprises d’IA.

Or aujourd’hui, lorsqu’un auteur s’estime « pillé » par un chatbot IA, c’est à lui de prouver que son ou ses oeuvres (livres, chansons, dessins) ont été utilisées pour entraîner cet outil. Le problème est que cette preuve est quasi impossible à apporter pour ces derniers, expliquent les auteurs de la proposition de loi.

Les développeurs d’IA ne sont pas contraints par la loi de publier une liste exhaustive de leurs données d’entrainement. N’y étant pas contraints, aucun acteur, à une exception près, n’a joué le jeu de la transparence. Seul le règlement sur l’IA les obligera, à partir d’août prochain, à publier un résumé suffisamment détaillé de leurs sources de formation – et non pas une liste exhaustive.

À lire aussi : Droit d’auteur : à partir du 2 août, les IA devront bien dévoiler leurs sources en Europe

Les sociétés d’IA devront-elles payer des dommages et intérêts aux auteurs ? L’épineux sujet devrait être tranché en 2026

Le nouveau système proposé par le texte discuté ce mercredi au Sénat, s’il était adopté tel quel, renverserait la charge de la preuve, en France : à partir du moment où ChatGPT, Le Chat ou Gemini citerait un texte original ou imiterait un auteur (« à la manière de »), il serait présumé avoir été entraîné sur cette œuvre. Pour ne pas avoir à payer de rémunération au titre du droit d’auteur, l’entreprise aurait à prouver qu’elle n’a pas utilisé cette donnée. De quoi siffler la fin de la récré pour tous les acteurs de l’IA qui n’avaient pas, jusqu’à présent, à se soucier du droit d’auteur.

Comment fonctionne le système actuellement ?

Ces derniers n’avaient pas à s’en soucier parce qu’ils estiment être dans leur droit. Pour les développeurs d’IA, les œuvres protégées par le droit d’auteur peuvent être utilisées à des fins d’entraînement, en vertu de la directive européenne de 2019. Le texte européen, adopté avant l’ère de l’IA générative, prévoit une exception au droit d’auteur pour les outils d’IA – « le text and data mining » ou exemption de fouille.

Dans ce système, les artistes et les ayants-droit peuvent toutefois s’opposer à ce que leurs œuvres nourrissent ces systèmes, en ayant recours au « opt-out ». En théorie, si l’auteur s’y oppose expressément (s’il « opt-out »), ce « text and data mining » (ce droit de fouilles, en français) n’est pas possible. Mais en pratique, ce mécanisme est difficile à mettre en œuvre.

Et en bout de chaîne, on ne sait pas si ce opt-out est réellement respecté, notamment par les robots d’indexation, parce que les entreprises d’IA n’ont pas communiqué la liste des données utilisées pour entraîner leur outil. Or, sans cette information, les auteurs ne peuvent pas ou peuvent difficilement savoir si leurs œuvres ont été utilisées pour entraîner une IA.

Parce que tout ce système repose sur une « transparence » des géants de l’IA qui n’existe pas, et que ce « moissonnage s’effectue sans autorisation préalable, ni rémunération de leurs titulaires », le texte transpartisan propose d’inverser la charge de la preuve.

Pourquoi ce texte maintenant ?

La proposition de loi sénatoriale arrive après une phase de discussions qui n’a pas abouti. L’année dernière, plusieurs négociations ont eu lieu entre les ayants droit, la presse et les développeurs d’intelligence artificielle, encadrées notamment par le ministère de la Culture et de l’Economie.

Mais ces négociations, qui auraient pu déboucher sur des accords de licences, n’ont pas avancé d’un iota. Le gouvernement avait prévenu qu’en cas d’échecs, il comptait bien légiférer. Des sénateurs avaient fait de même, avant de publier une proposition de loi en ce sens en décembre dernier.

Reste que le texte a suscité une telle levée de boucliers, notamment de la part des entreprises du numérique, que le président du Sénat a préféré saisir le Conseil d’État pour avis, le 19 février dernier. Un mois plus tard, la plus haute juridiction administrative a toutefois donné son feu vert à la proposition de loi française, obtenu malgré l’opposition des lobbys de la tech.

À lire aussi : Mettre fin au « pillage » des auteurs par l’IA : la proposition de loi validée par le Conseil d’État

Pourquoi la tech est vent debout contre le texte

Selon ces derniers, la nouvelle règle pénaliserait les entreprises françaises de l’IA et entraînerait une perte de compétitivité importante, des arguments soutenus par la start-up française Mistral AI, qui a développé Le Chat, et France Digitale, qui défend les intérêts des start-up. Pour les développeurs d’IA, il serait très difficile de savoir si telle œuvre a été utilisée pour entraîner tel modèle de langage, le tout revenant à « chercher une aiguille dans une botte de foin ».

De son côté, la société d’IA française Mistral a milité, le 20 mars dernier dans une tribune du Financial Times, pour la mise en place d’un système différent. Plutôt qu’une présomption qui pèserait sur les entreprises d’IA, ces dernières pourraient contribuer au financement d’un fonds destiné à indemniser les auteurs dont les contenus ont été utilisés sans autorisation, basé sur un pourcentage de leurs chiffres d’affaires. La proposition avait suscité une fin de non-recevoir de plusieurs représentants de la Culture, comme la Sacem.

Reste que plusieurs zones d’ombre devront être éclaircies : les membres du gouvernement vont-ils soutenir ce texte ? Est-il compatible avec le droit européen (même si le Conseil d’État a répondu positivement sur ce point) ? Sera-t-il adopté tel quel par le Sénat puis l’Assemblée nationale ? Des éléments de réponse devraient être donnés ce mercredi.

À lire aussi : Pourquoi ce vote des Eurodéputés pourrait changer la donne pour les auteurs et artistes face à l’IA

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source link

Une nouvelle présomption d’utilisation pour Google, OpenAI ou Mistral, qu’est ce que ça veut dire ?

Comment fonctionne le système actuellement ?

Pourquoi ce texte maintenant ?

Pourquoi la tech est vent debout contre le texte

Laisser un commentaire Annuler la réponse