De grosses entreprises de la Silicon Valley ont utilisé des vidéos YouTube à l’insu de leurs créateurs pour entraîner leurs outils d’intelligence artificielle (IA), au mépris des conditions d’utilisation de la plate-forme. Plus précisément, ces sociétés ont utilisé les sous-titres de ces vidéos, selon les conclusions d’une enquête parue mardi 16 juillet dans Proof News, un média américain à but non lucratif financé par plusieurs fondations.
Parmi les entreprises pointées du doigt figurent trois géants aux bénéfices colossaux : le spécialiste de l’électronique Apple, l’expert en logiciels de relation client Salesforce et le leader des cartes graphiques Nvidia, dont les puces sont beaucoup utilisées pour entraîner les IA. Y figure aussi une grosse start-up : Anthropic, l’éditrice de l’IA conversationnelle Claude, qui a reçu quatre milliards de financement en provenance d’Amazon en 2024.
Proof News a fouillé les articles de recherche publiés par ces différentes sociétés : ceux-ci indiquent clairement que leurs chercheurs ont recouru à un ensemble de 173 536 vidéos appelé YouTube Subtitles pour entraîner leurs IA. Ces vidéos ont été grappillées sur plus de 48 000 chaînes YouTube différentes et si certaines, comme celle du youtubeur PewDiePie, se sont fait siphonner près de 400 contenus, la plupart se sont vu prélever les sous-titres d’un peu moins de quatre vidéos en moyenne.
Médias et youtubeurs
Les journalistes de Proof News ont pu télécharger cet ensemble de vidéos. Ils ont bâti un moteur de recherche qui permet à tout un chacun d’y naviguer et d’identifier les chaînes d’origine. On y trouve essentiellement des sources anglophones : des canaux éducatifs comme ceux du MIT, de Harvard, et de la Khan Academy, des médias comme le Wall Street Journal, des chaînes de télévision comme CBS et la BBC, ou encore des youtubeurs stars comme MrBeast. Selon Proof News, on y retrouve aussi des vidéos provenant de sources complotistes soutenant que la Terre est plate. Y figurent également quelques vidéos en langue française : parmi les rares médias français impliqués, quelques vidéos du Monde et de l’Agence France-Presse, et chez les youtubeurs hexagonaux, Squeezie, Norman et Cyprien.
Selon Proof News, ces sous-titres ont été rassemblés par EleutherAI, un groupe de recherche à but non lucratif, qui n’a pas répondu aux questions du média américain. Sur son site Internet, EleutherAI déclare travailler à rendre accessible des technologies d’IA pointues à de petits acteurs pour éviter que le secteur soit « dominé par une poignée de grosses entreprises ».
Anthropic et Salesforce ont confirmé à Proof News avoir employé un ensemble de données nommé The Pile (« la pile »), dans lequel figurent les sous-titres de YouTube Subtitles. Les sociétés Apple et NVidia, elles, n’ont pas répondu aux questions des journalistes. Quant à Google, propriétaire de YouTube, l’un de ses porte-parole a simplement affirmé que son entreprise avait mené des actions pour « empêcher » ce genre de pratique, mais sans répondre sur le cas précis relevé par Proof News. En avril 2024, une enquête du New York Times avait démontré que Google et OpenAI avaient, eux aussi, utilisé les sous-titres de vidéos YouTube pour l’entraînement de leur IA.