Reddit ne veut plus faire partie de l’« open web ». Le site communautaire interdit l’accès de son contenu aux moteurs de recherche à l’exception notable de Google, qui paie Reddit des dizaines de millions de dollars pour entraîner ses modèles IA.
Il n’y a plus que Google qui affiche la totalité des liens vers les discussions de Reddit. Les autres moteurs de recherche, comme Bing ou Brave, n’y ont plus accès (même s’ils peuvent proposer des liens Reddit à l’occasion). Kagi, qui paie Google pour une partie de son index de recherche, liste toujours des résultats sur Reddit.
Indexation interdite
La découverte faite par le site 404media s’appuie sur des changements opérés sur le fichier robots.txt, que chaque site peut mettre en place pour donner des instructions aux moteurs de recherche qui veulent explorer ses pages. Ce fichier a été modifié pour empêcher ces moteurs d’indexer les conversations sur Reddit. « Nous avons constaté une augmentation des entités manifestement commerciales qui scrutent Reddit et affirment ne pas être liées par nos conditions ou politiques », expliquent les développeurs de Reddit. « Pire encore, [ces entités] se cachent derrière robots.txt et prétendent pouvoir utiliser le contenu de Reddit à leur guise ».
Les modifications apportés au fichier robots.txt de Reddit remontent au 25 juin. La plateforme explique que les acteurs de bonne foi peuvent prendre contact et demander un accès aux contributions des utilisateurs de Reddit, qui a donné son feu vert à l’Internet Archive et à des organisations de chercheurs. Et donc aussi à Google, qui verse chaque année 60 millions de dollars pour moissonner les discussions sur Reddit pour entraîner ses modèles d’intelligence artificielle, ce qui lui permet au passage d’indexer le contenu pour son moteur de recherche.
Reddit cherche aussi à décrocher un accord avec Microsoft, selon ArsTechnica. Le blocage de Bing est un moyen de faire pression. « Nous croyons en un internet ouvert, mais nous ne croyons pas à l’utilisation abusive de contenu public », assure Reddit, qui emboîte le pas aux éditeurs de sites web qui contestent l’argument de l’« utilisation équitable » (fair-use) avancé par les entreprises de l’IA pour moissonner le web ouvert.
Sur Reddit cependant, les contributions proviennent directement des internautes et il serait assez légitime qu’elles soient indexables par tous les moteurs de recherche.
Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source :
404media