Dans un billet de blog le 10 novembre, la fondation américaine qui héberge Wikipédia et les projets associés demande que soient indiquées clairement la source des informations des IA – la reprise des contenus de Wikipédia est libre à condition de respecter les licences liées (indiquer la licence, mettre un lien, etc.), – et que la plupart des développeurs d’IA (i.e. les géants du secteur…) passent par l’API payante de Wikimedia Enterprise.
Une ressource précieuse pour entraîner les IA
La fondation rappelle les commentaires de Hank Green, vulgarisateur scientifique qui s’est interrogé il y a deux ans sur l’avenir de l’IA et le risque qu’elle s’autodétruise. «En effet, l’IA générative ne peut exister sans une mise à jour constante des connaissances créées par l’humain; sans cela, les systèmes d’IA s’effondreraient sous l’effet de la modélisation. La force de Wikipédia réside dans ses communautés de contributeurs bénévoles, fortes de plusieurs centaines de milliers de personnes, qui améliorent sans cesse les informations du site.»
«L’IA ne peut exister sans l’effort humain déployé pour construire des sources d’information ouvertes et à but non lucratif comme Wikipédia. C’est pourquoi Wikipédia constitue l’un des ensembles de données les plus fiables au monde pour l’entraînement des IA. Lorsque les développeurs d’IA tentent de s’en passer, les réponses obtenues sont nettement moins précises, moins diversifiées et moins vérifiables. C’est aussi pourquoi nous appelons les développeurs d’IA et les autres utilisateurs de contenu qui accèdent à notre site à l’utiliser de manière responsable et à soutenir Wikipédia. Ils peuvent y parvenir grâce à deux actions simples : citer leurs sources et apporter un soutien financier.»
«Pour que les internautes fassent confiance aux informations partagées sur Internet, les plateformes doivent clairement indiquer la source de ces informations et multiplier les occasions de les consulter et d’y contribuer.» «Une baisse du trafic sur Wikipédia risque de réduire le nombre de bénévoles qui enrichissent le contenu, et de diminuer le nombre de donateurs individuels qui soutiennent ce travail.»
Utiliser Wikipédia sans surcharger ses serveurs
Ce soutien financier signifie que «la plupart des développeurs d’IA devraient accéder correctement au contenu de Wikipédia via la plateforme Wikimedia Enterprise. Développé par la Fondation Wikimedia, ce produit payant, accessible sur inscription, permet aux entreprises d’utiliser le contenu de Wikipédia à grande échelle et de manière durable sans surcharger les serveurs de Wikipédia, tout en contribuant à notre mission à but non lucratif.»
La consommation en très forte hausse de bande passante par les bots d’IA, qui en plus contribuent à faire chuter les visites humaines sur Wikipédia, est un souci pour la pérennité de Wikipédia. La demande de la fondation survient en effet après qu’elle a indiqué mi-octobre avoir amélioré ses algorithmes pour mesurer, parmi les milliards de pages vues sur ses sites chaque mois, la part des humains et celle des robots. En mai-juin, elle a ainsi observé un trafic particulièrement élevé émanant de bots conçus pour échapper à la détection, comme s’ils étaient des internautes humains.
Parallèlement, le nombre de pages réellement regardé par des humains a chuté de 8% en un an. Cette baisse n’est pas surprenante, estimait Marshall Miller, « senior director of product » à la fondation Wikimedia:
«Les moteurs de recherche utilisent de plus en plus l’IA générative pour fournir directement des réponses aux internautes, plutôt que de les rediriger vers des sites comme le nôtre. Les jeunes générations, quant à elles, privilégient les réseaux sociaux de vidéo pour s’informer, au détriment du Web ouvert. Cette évolution progressive n’est pas propre à Wikipédia. De nombreux autres éditeurs et plateformes de contenu constatent des changements similaires, les utilisateurs passant davantage de temps sur les moteurs de recherche, les chatbots et les réseaux sociaux pour trouver des informations. Ils subissent également la pression exercée par ces entreprises sur leurs infrastructures.»
Deux tiers de la bande passante absorbés par des bots
Un rapport de la fondation, le 1er avril 2025, précisait que «au moins 65 % du trafic gourmand en ressources de notre site web provient de robots, une proportion disproportionnée sachant que les pages vues par ces robots représentent environ 35% du total. Cette forte utilisation perturbe constamment le travail de notre équipe dédiée à la fiabilité du site, qui doit bloquer le trafic excessif de ces robots d’exploration avant qu’il n’affecte l’expérience utilisateur.»
Il concluait: «Notre contenu est gratuit, mais notre infrastructure ne l’est pas: nous devons agir maintenant pour rétablir un équilibre sain, afin de pouvoir consacrer nos ressources d’ingénierie au soutien et à la priorisation des projets Wikimedia, de nos contributeurs et de l’accès humain à la connaissance.»
Le lancement de Wikimedia Enterprise avait été annoncé en 2021. Wikimedia avait déclaré qu’il s’agit « avant tout d’une interface de programmation (API) pour le contenu Wikimedia. Elle est conçue pour les exigences des très grandes organisations qui utilisent le contenu Wikimedia dans leurs services commerciaux et qui ont des besoins considérables en termes de volume, rapidité, et fiabilité de service. Ce service sera accompagné d’une garantie contractuelle (un ‘Service Level Agreement’ ou SLA) pour les clients payants.»
Premier bénéfice prévu pour cette année fiscale
Dans son rapport financier annuel 2023-2024, publié en novembre 2024, la fondation indiquait que le chiffre d’affaires de Wikimedia Enterprise pendant cet exercice fiscal était de 3,4 millions de dollars (contre 3,2 millions pour l’exercice 2022-2023), représentant 1,8 % du revenu total de la Wikimedia Foundation. Les dépenses de Wikimedia Enterprise étaient quant à elles de 3,8 millions de dollars (4 millions pour l’année fiscale précédente).
«Avec 1,9 million de dollars déjà engrangés et plusieurs autres contrats en cours de négociation, nous prévoyons un chiffre d’affaires total de 8 millions de dollars, soit 3,5 millions de dollars de bénéfices nets pour l’exercice 2024-2025, ce qui permettrait également de rembourser les coûts d’investissement des années précédentes.»
Image: Ibrahim.ID / Wikimedia Commons / CC by-sa
A lire aussi
Explosion du trafic des bots IA : +300 % en un an, un risque majeur? – 5 novembre 2025
Libre et open source express: Wikipédia et IA, Europe, Inria, Allemagne, Fedora – 15 juin 2025
Sites d’actus produites par IA : Wikipédia va faire du ménage dans ses sources – 9 février 2025
La fondation Wikimedia veut vendre aux géants de la tech un accès amélioré aux données de Wikipédia – 22 mars 2021