L’arrivée de ChatGPT, en novembre 2022, n’en finit pas d’avoir des conséquences, fantasmées ou réelles. Parmi ces dernières, un groupe d’universitaires indépendants, Data Provenance Initiative, vient d’en identifier une, assez inattendue : le tarissement des sources auxquelles s’abreuvent les systèmes d’intelligence artificielle générative que l’outil de l’entreprise américaine OpenAI a popularisés. Plus exactement, dans son preprint soumis à une conférence, en juillet, cette équipe a mesuré à quel point un nombre important de sites, parmi les plus fréquentés du monde (The New York Times, HuffPost, The Guardian…), interdisent désormais aux outils automatiques de récupération des données, ou crawling en anglais, d’accéder à leurs informations. Et c’est à partir de ces données que d’énormes corpus sont constitués pour entraîner les intelligences artificielles tels ChatGPT, Gemini, Copilot, Le Chat, Llama, Claude… Plus grands sont les corpus, meilleurs sont les résultats, même si la « qualité » compte aussi.
Pour arriver à ce constat de fermeture du Web, les chercheurs ont étudié trois corpus très utilisés pour le développement d’IA, C4, RefinedWeb et Dolma, contenant des milliards de « tokens » (ou unités lexicales, syllabes, voire mots) en provenance de dizaines de millions de sites Internet (médias, forums, encyclopédies, marchands en ligne, sites personnels ou d’universités, réseaux sociaux…). Ils ont aussi récupéré deux types d’informations sur ces sites afin de savoir ce qu’ils autorisent ou non : leurs conditions générales d’utilisation (CGU) et un fichier appelé « robots.txt », que les robots-crawlers sont censés « lire » pour déterminer s’ils ont le droit de collecter des données ou non (mais une « interdiction » peut aussi ne pas être respectée).
Liste noire
Le premier constat est que les interdits formulés dans les robots.txt « explosent » à partir de 2023. Près de 30 % des sites les plus importants y ont désormais recours, contre à peine 2 % auparavant. En volume de données, les chercheurs estiment que plus de 30 % des tokens des 3 950 sites les plus gros au sein des corpus C4 et RefinedWeb sont désormais touchés par des restrictions.
Tous les crawlers ne sont pas logés à la même enseigne : 25,9 % des tokens de C4 sont interdits aux robots d’OpenAI, quand c’est seulement 13,3 % pour ceux d’Anthropic ou 4,1 % pour ceux de Meta. Récemment, de nombreux éditeurs ont fait savoir qu’ils bloquaient l’un des derniers robots du marché, celui d’Apple.
Les chercheurs notent aussi qu’une organisation à but non lucratif américaine, Common Crawl, figure également sur la liste noire de bien des sites. Il est vrai que ses données servent à construire les corpus C4, RefinedWeb, FineWeb, Dolma…, qui eux-mêmes peuvent servir à des entreprises à but lucratif pour développer leurs systèmes. Mais les interdits touchent aussi les crawlers d’Internet Archive, un service non commercial de « mémoire » du Web.
Il vous reste 53.38% de cet article à lire. La suite est réservée aux abonnés.