Mistral AI, le champion français de l’IA générative, accusé d’avoir pillé des œuvres pour son IA

La start-up française, qui a développé le chatbot conversationnel Le Chat, aurait utilisé des contenus protégés par le droit d’auteur pour entraîner son modèle de langage, selon une enquête de Mediapart.

Mistral AI a, comme d’autres entreprises du secteur de l’intelligence artificielle (IA), fait fi du droit d’auteur : voilà la conclusion d’une enquête du média d’investigation Mediapart, publiée ce lundi 23 février : selon nos confrères, Mistral AI, la championne française de l’IA générative, a bien utilisé des livres, des chansons et des articles de presse pour entraîner son modèle de langage, sans autorisation.

Depuis des mois, la start-up d’IA, qui a développé le chatbot IA Le Chat, rechigne à faire preuve de transparence quant à ses données d’entraînement. La société française, comme la quasi-totalité des entreprises d’IA, attend le tout dernier moment pour remplir ses nouvelles obligations liées à l’AI Act, rapportait Euractiv en janvier dernier. Cette dernière doit ouvrir son capot sur ses données d’entraînement, des data indispensables aux ayants droit et aux créateurs, qui les attendent de pied ferme.

À lire aussi : Contraintes d’ouvrir le capot sur leurs données d’entraînement, OpenAI, Google et Mistral traînent des pieds

C’est en effet le seul moyen pour ces derniers de vérifier que leurs livres, articles, ou morceaux de musique ont été utilisés pour entraîner les outils d’IA, malgré l’absence d’autorisation : dans un tel cas, ces derniers pourraient réclamer des dommages et intérêts.

Le modèle d’IA de Mistral AI capable de reproduire des parties entières de Harry Potter et du Petit Prince

Selon Mediapart, non seulement Mistral aurait utilisé des « ouvrages protégés par le droit d’auteur » à des fins d’entraînement de son outil d’IA. Mais la société utilise des données de sites de plusieurs médias, sans respecter leur « opt out » (voir encadré ci-dessous). Mistral AI donnerait aussi directement accès aux contenus protégés, détaille le site d’investigation.

Pour arriver à cette conclusion, le média en ligne a réalisé des tests techniques « pour comprendre le fonctionnement de Mistral Large 3-2512 (modèle le plus récent de Mistral AI) et de Le Chat », l’agent conversationnel de la start-up française, indiquent nos confrères. Le Chat a été capable de reproduire des parties entières d’ouvrages protégés comme Harry Potter à l’école des sorciers, le Petit Prince d’Antoine de Saint-Exupéry, le Hobbit de J. R. R. Tolkien.

À lire aussi : Le monde du cinéma dénonce un « pillage en règle » de l’IA « ici et maintenant »

Pour trois chercheurs interrogés par nos confrères, il s’agit là « d’un indicateur fort » que l’outil d’IA a bien été formé sur l’œuvre originale, et non sur des extraits qui se trouveraient dispersés sur le Web. À côté des livres, des chansons et des articles de presse sont aussi concernés.

Interrogé, Mistral AI a simplement répondu que les bots utilisés par la start-up « enrichissent les réponses apportées à (ses) utilisateurs et ne visent pas à constituer des jeux de données pour entraîner (ses) modèles ».

Fin janvier, Mistral AI a aussi été accusé par un éditeur français, Nouveau Monde Editions, d’avoir piraté une partie de son catalogue, sans autorisation : une allégation âprement contestée par la principale intéressée.

En France et en Europe, les artistes, les ayants droit et les créateurs de contenus peuvent en théorie s’opposer à ce que leurs œuvres nourrissent les systèmes d’IA, en ayant recours au « opt-out ». Ce dispositif est prévu par la directive sur le droit d’auteur de 2019, lorsque les outils d’IA collectent des données pour s’entraîner via des robots explorateurs du Web.

Si l’auteur s’y oppose expressément (s’il « opt-out »), le « text and data mining » (le droit de fouilles, une exception au droit d’auteur prévue par la directive européenne) n’est pas possible. Mais en pratique, ce mécanisme est difficile à mettre en œuvre.

Les auteurs peuvent en effet inscrire expressément sur tel site Web : « je ne souhaite pas que mon œuvre soit utilisée », ou avoir recours à des programmes informatiques qui bloquent les requêtes des outils d’IA ou des robots. Mais ces oppositions sont-elles efficaces ?

L’enquête de Mediapart penche vers le non. Jusqu’à présent, il existe une opacité sur les données d’entraînement des outils d’IA, et sur la prise en compte des oppositions des auteurs/créateurs.

D’un côté, les développeurs d’IA comme OpenAI, Google ou Mistral AI n’ont pas communiqué la liste des données utilisées pour entraîner leur outil.
De l’autre, sans cette information, les auteurs ne peuvent pas ou peuvent difficilement savoir si leurs œuvres ont été utilisées pour entraîner une IA.

Côté européen, les législateurs européens ont ajouté dans l’AI Act un « principe de transparence des sources ». Elle oblige les développeurs d’IA comme OpenAI et Mistral AI à publier un « résumé suffisamment détaillé » des données utilisées pour former leur outil.

Cette transparence n’est pas encore contrôlée au niveau européen. Elle le sera par la Commission européenne à partir d’août prochain, pour les modèles mis sur le marché après le 2 août 2025.

Côté français, une proposition de loi sénatoriale, déposée en décembre dernier, vise à faciliter la vie des auteurs. Elle renverserait la charge de la preuve. Au lieu d’avoir des créateurs qui peinent à s’opposer à l’utilisation de leurs œuvres, ou qui peinent à prouver cette utilisation, le système reposerait sur les entreprises d’IA. Ce sont elles qui devraient prouver qu’elles n’ont pas utilisé telle œuvre pour former leur outil d’IA : un renversement qui a suscité une levée de boucliers des start-up françaises… dont Mistral AI.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source link

Le modèle d’IA de Mistral AI capable de reproduire des parties entières de Harry Potter et du Petit Prince

Laisser un commentaire Annuler la réponse