Wikipédia va faire du ménage dan …

Assurer la maintenance de Wikipédia, c’est comme faire le ménage dans le monde physique, toujours à recommencer. L’encyclopédie libre née en 2001 doit constamment faire face aux contributeurs mercenaires – publicitaires, petites mains de responsables politiques et autres -, à ceux/celles voulant ripoliner « leur » article et en effacer les mentions gênantes pour eux, aux militants clandestins qui tentent de biaiser des articles liés à leur champion (cas d’infiltrés pro-Zemmour par exemple) etc.

Un travail collectif considérable de bénévoles contre des participants rémunérés. En 2020, «plusieurs centaines d’articles sur des entreprises/personnalités du monde des affaires ont été substantiellement modifiés par ces agences [de communication]: Doctolib, C&A, La Poste, Casino, Quantic Dream, Eurazeo, Crédit mutuel, Air liquide et tant d’autres.»

Et les wikipédiens avaient dû nettoyer ces altérations.

Des sites parasites par centaines

Et voici qu’une nouvelle source de pollution vient d’être repérée: les sites parasites d’actualités, aux articles produits à la chaîne par intelligence artificielle. À l’origine de cette découverte, explique un wikipédien, Jules, dans une section de Wikipédia dédiée aux sources (une recommandation importante de l’encyclopédie est «citez vos sources»), il y a une enquête menée par le journaliste Jean-Marc Manach pour le site Next, «qui au cours d’une enquête a découvert plusieurs centaines de sites web utilisant des IA génératives (abrégées genAI). (…) Il a proposé à Jules de lui fournir la liste des sites web identifiés afin de déterminer lesquels sont utilisés sur Wikipédia, la liste étant soumise à embargo jusqu’à publication de l’enquête de presse.»

Cette vaste enquête, en partenariat avec Libération (plusieurs liens à partir de celui ci, dont ce grand article – réservé aux abonnés – sur Next; un résumé là) a montré qu’au moins un millier de sites d’actualité sans journalistes diffusent des contenus générés par intelligence artificielle. Ces articles sont souvent réalisés par plagiat de la presse traditionnelle, voire inventés, et dissimulent leur fonctionnement (noms d’auteur fictif par exemple).

Dans Wikipédia en français, Jules et un autre wikipédien, Pa2chant.bis, ont «travaillé tous les deux de mi-novembre à mi-décembre, y consacrant plusieurs dizaines d’heures». Jules indique que «sur 327 sites fournis par Next, 14 avaient déjà été identifiés lors des enquêtes menées à l’été 2022 sur Avisa Partners et Nativiz, un peu moins de 160 sont présents sur Wikipédia. Nous en avons examiné 148, qui sont présents dans l’espace principal» [dans les articles, par différence avec les forums, pages de discussion et autres coulisses de l’encyclopédie].

148 sites analysés, et 284 autres à vérifier

Résultat de ce labeur, «sur 148 sites analysés : 105 ont recours à de l’IA pour la rédaction des textes; 65 recourent au plagiat (avec ou sans traduction, avec ou sans reformulation par IA); 81 ne sont pas transparents (pas de mentions légales, mentions mensongères, auteurs fictifs, etc.); 51 sont des sites vampirisés; 7 ont fait l’objet de spam sur Wikipédia; 18 ont servi à des modifications promotionnelles sur Wikipédia; 2 sont clairement des faux-positifs.»

L’enquête détaillée des deux wikipédiens est exposée là. «Pour chaque site examiné, nous avons indiqué ce que nous préconisons que la communauté fasse : mise en liste noire, suppression des liens, remplacement des liens par une version archivée (lorsque les liens ne sont plus accessibles, que le site a été « vampirisé », et que c’était auparavant une source acceptable).»

Un gros travail de nettoyage va donc suivre pour la communauté de l’encyclopédie, non limité à ces 148 premiers sites, car, ajoute Jules, «depuis la conclusion de notre enquête wikipédienne, Jean-Marc Manach a identifié plus de 700 autres sites web avec des contenus genAI ou contenant des plagiats. Avec un script créé pour l’occasion, nous avons ramené ce nombre à une liste de 284 sites web présents sur Wikipédia, liste mise à disposition sur Enquête genAI : noms de domaine à analyser (pas le même lien que ci-dessus). Ces 284 sites s’ajoutent donc aux 148 déjà passés en revue: nous comptons sur l’analyse collaborative pour poursuivre le travail que nous avons entrepris.»

Comme on le voit, les balais et serpillères numériques n’ont pas fini de servir dans Wikipédia.

Wikipédia va faire du ménage dan …

Des sites parasites par centaines

148 sites analysés, et 284 autres à vérifier

Illustration : laveurs de vitres au musée du quai Branly. Photo : Hartmut Schmidt Heidelberg / Wikimedia Commons / CC by-sa

Lire aussi

Laisser un commentaire Annuler la réponse