Contraintes d’ouvrir le capot sur leurs données d’entraînement, OpenAI, Google et Mistral traînent des pieds

Plusieurs grandes entreprises spécialisées dans l’intelligence artificielle sont déjà censées fournir un résumé des données utilisées pour entraîner leurs modèles, en raison de l’AI Act. Mais aucun de ces géants n’a encore joué le jeu et « ouvert son capot ». Et pour cause : donner accès à ces données pourrait entraîner des paiements et des dédommagements à répétition, une situation que les géants de l’IA cherchent coûte que coûte à éviter.

Ce n’est pas une surprise. Comme pour d’autres réglementations européennes sur le numérique, les grandes entreprises spécialisées en intelligence artificielle, à savoir OpenAI, Mistral ou encore Google, attendent le dernier moment pour se mettre en conformité. L’AI Act, premier cadre juridique européen dédié à l’intelligence artificielle, n’échappe pas à la règle. Cette fois, l’enjeu concerne la transparence sur les données d’entraînement des modèles d’IA et le respect du droit d’auteur.

Entré en vigueur en août 2024, l’AI Act impose aux fournisseurs de systèmes d’intelligence artificielle comme ChatGPT, Le Chat ou Gemini des obligations de transparence inédites. Parmi elles, on trouve la publication d’un résumé des données utilisées pour entraîner leurs modèles, des données qui étaient jusque-là gardées secrètes par ces entreprises. Or, à l’heure actuelle, aucun des grands acteurs du secteur, pourtant contraints de respecter cette obligation, n’a transmis ces données, rapporte Euractiv, le 19 janvier 2026. La situation questionne la capacité de l’Union européenne (UE) à imposer cette règle à ces grandes entreprises.

Une obligation immédiatement applicable, mais contrôlée seulement à partir de cet été

L’AI Act est un règlement européen entré en vigueur le 1ᵉʳ août 2024, avec une mise en application progressive des obligations jusqu’en 2026-2027. Parmi les obligations prévues par ce texte figure un devoir de transparence, notamment sur les données utilisées pour l’entraînement des modèles d’IA. Or, l’entrée en vigueur de cette obligation dépend du moment où un modèle de langage est mis sur le marché.

Si le modèle d’IA est mis sur le marché européen avant le 2 août 2025, les entreprises ont jusqu’à août 2027 pour montrer patte blanche. Mais si la mise sur le marché a eu lieu après le 2 août 2025, les entreprises doivent s’y conformer… immédiatement. Reste que dans les faits, la Commission européenne ne contrôlera ces règles qu’à compter d’août prochain. Une nuance que les sociétés d’IA semblent bien avoir comprise.

Aucune entreprise, à l’exception de Hugging Face le 28 juillet dernier, ne s’est pliée à la règle, détaille le média européen. Pourquoi une telle réticence ? Outre les crispations habituelles engendrées par les lois européennes sur le numérique, cette obligation de transparence hérisse au plus haut point certaines entreprises. Elle touche en effet à leur modèle économique.

Obligation de transparence, ça veut dire quoi ?

Cette obligation les contraint à publier un résumé des données utilisées pour entraîner leurs systèmes d’IA. Pour faciliter cette démarche, la Commission européenne a présenté un modèle sous forme d’un formulaire à remplir destiné à fournir une « base de référence commune ». Ces informations sont primordiales pour les auteurs, créateurs et ayants-droit. Sans ces data, ces derniers ne peuvent pas savoir si leurs œuvres ont été utilisées pour former un outil d’IA.

Avec cette obligation, la Commission européenne a cherché à leur donner les moyens de vérifier si leurs œuvres ont été utilisées pour former un modèle d’IA – même s’il ne s’agit pas d’une liste exhaustive, mais d’un simple résumé. En théorie, l’auteur (artiste, écrivain etc) pourrait s’appuyer sur ces informations pour engager une action en justice, en cas d’utilisation, avec, à la clé, de possibles dommages et intérêts.

À lire aussi : Droit d’auteur : à partir du 2 août, les IA devront bien dévoiler leurs sources en Europe

Une réglementation déjà contraignante mais pas encore appliquée

Or selon les informations rapportées par Euractiv, aucun des grands groupes d’IA n’a, à ce stade, divulgué les informations de transparence exigées par l’AI Act. Pourtant, OpenAI, Google et l’entreprise française Mistral ont, toutes les trois, mis sur le marché un modèle après août 2025. Elles sont donc censées appliquer immédiatement cette obligation de transparence.

Problème : elles n’ont jusqu’à présent qu’indiqué, dans leurs documents techniques, avoir utilisé des données variées pour entraîner leurs modèles, sans pour autant nommer précisément les ensembles de données ou les sites web concernés.

Une position qui n’est pas surprenante car dès novembre 2022, OpenAI avait refusé de communiquer sur ses données d’entraînement, un choix qui a ensuite été largement repris par les autres acteurs du secteur. L’entreprise a aussi été la première à faire fi des droits d’auteur ou du copyright, en collectant massivement des données du Web, y compris des données protégées : un choix suivi ensuite par ses concurrents.

Or, fournir ces résumés de données pourrait l’exposer à des demandes d’indemnisations et de paiement de droits d’auteur salés… De quoi menacer leur modèle économique, d’autant que nombre d’entre elles ne sont pas bénéficiaires. Officiellement, les entreprises justifient l’opacité des données d’entraînement par la complexité technique des systèmes. Elles expliquent aussi ne pas être en mesure de retracer précisément les sources utilisées.

Interrogé par Euractiv, Google assure évaluer actuellement la bonne manière de respecter les exigences du règlement. OpenAI indique poursuivre ses échanges avec le bureau européen de l’IA. Mistral, de son côté, n’avait pas répondu aux sollicitations de nos confrères.

Quelles sanctions en cas de non-respect ?

Reste qu’à partir d’août prochain, la Commission européenne pourrait aller jusqu’à sanctionner les entreprises qui continueraient d’ignorer ces obligations de transparence.

Sur le papier, le non-respect de ces règles coûte cher. Les récalcitrantes s’exposent à des amendes pouvant atteindre 15 millions d’euros ou 3 % du chiffre d’affaires annuel mondial, pour les plus grandes d’entre elles. La menace sera-t-elle assez dissuasive, et se transformera-t-elle en sanction pour celles qui font la sourde oreille ?

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source :

Euractiv

Source link

Une obligation immédiatement applicable, mais contrôlée seulement à partir de cet été

Obligation de transparence, ça veut dire quoi ?

Une réglementation déjà contraignante mais pas encore appliquée

Quelles sanctions en cas de non-respect ?

Laisser un commentaire Annuler la réponse