les combines d’OpenAI, de Google et de Meta pour pallier la pénurie de données

Trouvez des données, et vous dominerez le marché de l’intelligence artificielle : cette « quête » des données, et les mille et un obstacles légaux ou pratiques rencontrés par OpenAI, Google et Meta, est ce que nous raconte le New York Times dans un récit paru le 6 avril dernier. Nos confrères y expliquent, enregistrements de réunions internes et témoignages anonymes à l’appui, comment Meta, OpenAI et Google, qui ont tous développé des IA génératives comme Llama, ChatGPT et Gemini, ont été confrontés à une véritable « pénurie ». De quoi les conduire à envisager plusieurs options, parfois à la limite de la légalité, pour trouver ce qui leur fera gagner la course à l’IA – à savoir, les données dont se nourrissent leurs grands modèles de langage, et qui permettent à ces dernières d’apprendre à formuler une phrase, un code ou à générer une vidéo.

Cette véritable quête a été formulée dès janvier 2020 par Jared Kaplan, un physicien de l’université américaine Johns Hopkins – qui travaille aujourd’hui chez Anthropic. Cette année-là, le scientifique faisait le constat suivant, dans un article sur l’IA : plus il y a de données pour entraîner un grand modèle de langage, et plus ce dernier sera performant – un peu comme un élève qui, en lisant de nombreux livres, se cultive davantage.

Si les entreprises du secteur ont unanimement épousé ce principe, elles ont été confrontées à un problème de taille : les données en question ne sont ni en accès libre, ni illimitées. Un point reconnu en mai dernier par Sam Altman, à la tête d’OpenAI. Lors d’une conférence, le dirigeant avait concédé que les entreprises d’IA, qui nécessitent de plus en plus de données, « épuiseraient » bientôt toutes les data exploitables sur Internet – comme les articles d’actualité, les avis ou messages sur les forums, les articles de Wikipédia, les photos, les podcasts, les vidéos, et aussi certaines œuvres.

Cette conclusion a aussi été formulée par d’autres, comme l’institut de recherche Epoch, selon lequel les entreprises pourraient épuiser les données « de haute qualité » sur Internet dès 2026 – il s’agit des données issues de livres ou d’articles rédigés par des professionnels. En d’autres termes, les entreprises qui développent des IA utiliseraient les données plus rapidement qu’elles ne seraient produites.

Chez Meta : des réunions de crise en mars et avril 2023 pour trouver des données

Comment résoudre ce problème ? Pendant des mois, les entreprises du secteur ont envisagé différentes solutions, à commencer par Meta, rapporte le New York Times. Début 2023, le groupe de Mark Zuckerberg aurait constaté qu’il n’avait plus assez de données pour former son LLM. Et selon des enregistrements de réunions internes, partagés par un employé à nos confrères, le constat aurait été formulé par Ahmad Al-Dahle. Le vice-président de l’IA générative chez Meta aurait déclaré que son équipe avait utilisé presque tous les livres, essais, poèmes et articles de presse disponibles en anglais sur le Web. Or, sans données supplémentaires, Meta ne pourrait pas rivaliser avec ChatGPT à moins d’obtenir plus de données, aurait expliqué Ahmad Al-Dahle.

En mars et avril 2023, les réunions se seraient succédé pour savoir comment enlever ce caillou dans la chaussure de Meta. Au sein de la maison mère de Facebook et d’Instagram, on aurait d’abord envisagé de racheter la maison d’édition Simon & Schuster. L’objectif : avoir accès à des œuvres longues, selon des réunions internes enregistrées, auxquelles le média américain a eu accès. Les salariés de Meta auraient ensuite discuté de l’utilisation des œuvres protégées par des droits d’auteur sur le Web, et de la négociation de licences avec les éditeurs, les artistes, les musiciens et les médias. Mais en interne, on aurait estimé que cette dernière étape prendrait trop de temps et ferait prendre trop de retard à Meta, dans cette course à l’IA. Un avocat aurait, pendant l’une de ces réunions, mis en garde contre les « préoccupations éthiques » liées à l’utilisation de la propriété intellectuelle des artistes et auteurs, sans autorisation. Son alerte aurait été suivie par un silence, expliquent nos confrères, enregistrements des réunions à l’appui.

Et finalement, c’est cette option qui aurait été choisie. Les avocats du groupe auraient expliqué que la collecte de données provenant du Web, qui permet de former les modèles d’IA, devrait être considérée comme du « fair use ». Cette exception du droit d’auteur américain permet d’utiliser dans certains cas des œuvres protégées par le copyright – mais un tel cas, pour l’entraînement d’une IA, n’a pas encore été tranché par les juridictions américaines. Pour les artistes et auteurs, cette utilisation est un véritable « pillage » qui doit cesser et être indemnisé. Interrogé par nos confrères, Meta a expliqué avoir « effectué des investissements agressifs » pour intégrer l’IA dans ses services. Le groupe a ajouté qu’il disposait de milliards d’images et de vidéos partagées publiquement sur Instagram et Facebook pour former ses modèles.

À lire aussi : Un grand « pillage numérique » : quand l’IA générative défie le droit d’auteur

Mais pour Sy Damle, un avocat représentant une société de capital-risque de la Silicon Valley, le recours aux données protégées par le droit d’auteur, mais accessibles sur le Web, est le « seul moyen pratique pour que ces outils (d’IA, NDLR) existent » – un argument repris régulièrement par les entreprises du secteur. Ces IA génératives doivent pourvoir « être formées sur de vastes quantités de données sans avoir à payer de licence pour ces données », expliquait cet avocat l’année dernière, lors d’une discussion publique sur le droit d’auteur et les modèles d’IA dont nos confrères se font l’écho. « Les données nécessaires sont si massives que même une licence collective ne peut vraiment pas fonctionner », avait-il ajouté.

À lire aussi : Impossible de créer ChatGPT sans contenus protégés par le droit d’auteur, avance OpenAI

Chez Google : l’utilisation des vidéos YouTube

Google aurait, de son côté, pallié la pénurie en utilisant une de ses plateformes : YouTube. Il aurait retranscrit des vidéos YouTube en texte – un texte ensuite utilisé pour entraîner ses modèles d’IA, selon « cinq personnes au courant des pratiques de l’entreprise » interrogées par nos confrères. Le mastodonte aurait aussi changé ses conditions d’utilisation de ses applications grand public gratuites comme Google Sheets ou Google Doc en juillet dernier. Son objectif : étendre son usage des données publiquement disponibles des utilisateurs à Bard, anciennement Gemini, son IA générative, précise le New York Times.

Mais selon un porte-parole de Google, il n’y aurait aucune utilisation « sans la permission explicite » des utilisateurs, en référence à un programme volontaire qui leur permet de tester certaines fonctionnalités expérimentales. Ses modèles d’IA « sont formés sur une partie du contenu YouTube », ce qui serait autorisé dans le cadre d’accords avec les créateurs de contenus de YouTube, a-t-il ajouté à nos confrères.

OpenAI aurait opté pour la retranscription à l’écrit de vidéos

Chez OpenAI, les chercheurs ont d’abord utilisé des données comme le référentiel de code informatique GitHub, ou des données décrivant des tests de lycée et des devoirs provenant du site Web Quizlet. Mais dès décembre 2021, le leader du secteur a été confronté à la même pénurie : plus aucune donnée n’était disponible. Les équipes qui développaient GPT-4 auraient alors envisagé différentes options : créer des données synthétiques (créées par des systèmes d’IA), retranscrire à l’écrit des podcasts ou des vidéos YouTube ou acheter des start-up ayant collecté de grandes quantités de données numérisées. Finalement, OpenAI aurait opté pour Whisper, un outil qui permet de retranscrire à l’écrit des vidéos YouTube et des podcasts, selon six personnes interrogées par nos confrères.

Et si l’entreprise américaine a bien noté que YouTube interdisait « tout moyen automatisé (comme des robots ou des scrapers) » sur ses vidéos, cette limite pourrait être contournée grâce au « fair use », cette exception au droit d’auteur américain, ont pensé les équipes d’OpenAI, selon des témoignages recueillis par nos confrères.

L’utilisation de vidéos YouTube par OpenAI a-t-elle été réalisée en toute illégalité, en violation des droits d’auteur des créateurs de contenus de YouTube ? Pas forcément, expliquent les personnes interrogées par le New York Times. Car le fait que Google aurait fait de même – en utilisant des transcriptions de vidéos YouTube pour former ses propres modèles d’IA – les protégerait de toute action de la part du géant, selon les personnes interviewées. Si Google s’était plaint des pratiques d’OpenAI, il se tirerait une balle dans le pied, car ses propres méthodes auraient alors été scrutées de près, ont-elles ajoutées.

Interrogé sur ce point, Matt Bryant, un porte-parole de Google, a expliqué à nos confrères que l’entreprise ne connaissait pas les pratiques d’OpenAI, et que le téléchargement de contenus de YouTube n’était pas autorisé. Google n’aurait agi, de son côté, que s’il disposait d’une base juridique pour le faire, a-t-il poursuivi. Cela signifie-t-il que Google était bien autorisé à utiliser les données des utilisateurs de YouTube pour nourrir son modèle d’IA – un service extérieur à la plateforme vidéo ? Selon des experts interrogés par le quotidien américain, la réponse à cette question est loin d’être tranchée. Et malgré toutes ces zones grises, les entreprises du secteur pourraient de toute façon atteindre un plafond – celui des données existantes. Il ne resterait aux IA qu’à créer des données synthétiques, des data créées par elles-mêmes pour le dépasser – une approche aussi envisagée, qui n’en serait, pour l’instant, qu’à ses prémisses.