bloquez les bots d’IA, les scrapers et les crawlers en un seul clic »

Cloudflare a dvoil une nouvelle fonctionnalit de son rseau de diffusion de contenu (CDN) qui empche les dveloppeurs d’IA de rcuprer du contenu sur le web. Selon Cloudflare, cette fonctionnalit est disponible la fois pour les versions gratuites et payantes de son service.

Cloudflare, Inc. est une entreprise amricaine qui fournit des services de rseau de diffusion de contenu, de cyberscurit dans le cloud, d’attnuation des DDoS, de service de nom de domaine et d’enregistrement de domaine accrdit par l’ICANN. Le sige de Cloudflare se trouve San Francisco, en Californie. Selon The Hill, Cloudflare est utilis par plus de 20 % des internautes pour ses services de scurit web, en 2022.

Pour aider prserver un Internet sr pour les crateurs de contenu, Cloudflare vient de lancer un tout nouveau « simple bouton » pour bloquer tous les bots d’IA. Ce bouton est disponible pour tous les clients de Cloudflare, y compris ceux qui bnficient du niveau gratuit.

Cette fonctionnalit utilise l’intelligence artificielle pour dtecter les tentatives d’extraction automatique de contenu. Selon Cloudflare, son logiciel peut reprer les bots qui extraient du contenu pour des projets de formation LLM, mme lorsqu’ils tentent d’viter d’tre dtects. Malheureusement, nous avons observ des oprateurs de bots tenter d’apparatre comme s’ils taient un vritable navigateur en utilisant un agent utilisateur usurp , ont crit les ingnieurs de Cloudflare dans un billet de blog. Nous avons surveill cette activit au fil du temps, et nous sommes fiers de dire que notre modle mondial d’apprentissage automatique a toujours reconnu cette activit comme un bot.

L’un des crawlers que Cloudflare a russi dtecter est un bot qui collecte du contenu pour Perplexity AI Inc, une startup de moteurs de recherche bien finance. Le mois dernier, il a t signal que la manire dont le bot racle les sites web fait apparatre ses requtes comme du trafic utilisateur rgulier. En consquence, les exploitants de sites web ont eu du mal empcher Perplexity AI d’utiliser leur contenu. Cloudflare attribue chaque visite de site web que sa plateforme traite un score de 1 99. Plus le chiffre est bas, plus la probabilit que la demande ait t gnre par un bot est leve. Selon l’entreprise, les demandes formules par le bot qui collecte du contenu pour Perplexity AI reoivent systmatiquement un score infrieur 30.

Cloudflare mettra jour la fonctionnalit au fil du temps pour tenir compte des changements dans les empreintes techniques des bots de scraping IA et de l’mergence de nouveaux crawlers. Dans le cadre de cette initiative, l’entreprise dploie un outil qui permettra aux exploitants de sites web de signaler les nouveaux bots qu’ils pourraient rencontrer.

La popularit de l’IA gnrative a fait monter en flche la demande de contenu utilis pour former des modles ou excuter des infrences, et, bien que certaines entreprises d’IA identifient clairement leurs bots de web scraping, toutes les entreprises d’IA ne font pas preuve de transparence. Google aurait pay 60 millions de dollars par an pour obtenir une licence sur le contenu gnr par les utilisateurs de Reddit, OpenAI aurait utilis sa voix pour son nouvel assistant personnel sans son consentement et, plus rcemment, Perplexity a t accuse d’usurper l’identit de visiteurs lgitimes afin de rcuprer du contenu sur des sites web. La valeur du contenu original en vrac n’a jamais t aussi leve.

L’anne dernire, Cloudflare a annonc la possibilit pour les clients de bloquer facilement les bots d’IA qui se comportent bien. Ces bots respectent le fichier robots.txt et n’utilisent pas de contenu sans licence pour entraner leurs modles ou excuter l’infrence pour les applications RAG l’aide de donnes de sites web. Mme si ces bots d’IA respectent les rgles, les clients de Cloudflare ont choisi en grande majorit de les bloquer.

Cloudflare entend clairement que les clients ne veulent pas que des bots d’IA visitent leurs sites web, et surtout ceux qui le font de manire malhonnte. Pour les aider, nous avons ajout un tout nouveau moyen de bloquer tous les bots d’IA en un seul clic. Cette fonction est disponible pour tous les clients, y compris ceux de la version gratuite. Pour l’activer, il suffit de se rendre dans la section Scurit > Bots du tableau de bord de Cloudflare, et de cliquer sur la bascule intitule AI Scrapers and Crawlers , indique Cloudflare dans son billet de blog.

Cette fonctionnalit sera automatiquement mise jour au fil du temps, au fur et mesure que Cloudflare verra de nouvelles empreintes de bots dlinquants identifis comme raclant largement le web pour l’entranement des modles. Pour s’assurer d’avoir une comprhension complte de toutes les activits des crawlers d’IA, Cloudflare a enqut sur le trafic travers son rseau.

Activit actuelle des bots d’IA

Le graphique ci-dessous illustre les bots d’IA les plus populaires vus sur le rseau de Cloudflare en termes de volume de requtes. Cloudflare a examin les agents utilisateurs de crawlers d’IA courants et a agrg le nombre de requtes sur sa plateforme provenant de ces agents utilisateurs d’IA au cours de l’anne dernire :

En examinant le nombre de requtes adresses aux sites de Cloudflare, Cloudflare a constat que Bytespider, Amazonbot, ClaudeBot et GPTBot sont les quatre principaux crawlers d’IA. Exploit par ByteDance, la socit chinoise propritaire de TikTok, Bytespider serait utilis pour recueillir des donnes d’entranement pour ses grands modles linguistiques (LLM), y compris ceux qui soutiennent son rival ChatGPT, Doubao. Amazonbot et ClaudeBot suivent Bytespider en termes de volume de requtes. Amazonbot, qui serait utilis pour indexer le contenu pour les questions-rponses d’Alexa, a envoy le deuxime plus grand nombre de requtes et ClaudeBot, utilis pour former le chat bot Claude, a rcemment augment son volume de requtes.

Parmi les principaux bots d’IA que Cloudflare a reprs, Bytespider arrive en tte non seulement en termes de nombre de requtes, mais aussi la fois pour l’tendue de son exploration des proprits Internet et la frquence laquelle il est bloqu. Il est suivi de prs par GPTBot, qui occupe la deuxime place en termes d’exploration et de blocage. GPTBot, gr par OpenAI, recueille des donnes d’entranement pour ses LLM, qui sont la base de produits bass sur l’IA tels que ChatGPT. Dans le tableau ci-dessous, » Share of websites accessed » fait rfrence la proportion de sites web protgs par Cloudflare qui ont t accds par le bot d’IA nomm.

Bien que l’analyse de Cloudflare ait identifi les crawlers les plus populaires en termes de volume de requtes et de nombre de proprits Internet accdes, de nombreux clients ne sont probablement pas conscients des crawlers IA les plus populaires qui parcourent activement leurs sites. L’quipe Radar de Cloudflare a effectu une analyse des principales entres robots.txt des 10 000 premiers domaines Internet afin d’identifier les robots d’IA les plus couramment utiliss, puis a examin la frquence laquelle Cloudflare voit ces robots sur les sites qu’il protge.

Dans le graphique ci-dessous, qui prsente les crawlers interdits pour ces sites, nous voyons que les clients font le plus souvent rfrence GPTBot, CCBot et Google dans les robots.txt, mais qu’ils n’interdisent pas spcifiquement les crawlers IA populaires comme Bytespider et ClaudeBot.

Alors qu’Internet est dsormais inond de ces bots d’IA, Cloudflare tait curieux de voir comment les exploitants de sites web ont dj ragi. En juin, les bots d’IA ont accd environ 39 % du million de proprits Internet les mieux classes utilisant Cloudflare, mais seulement 2,98 % de ces proprits ont pris des mesures pour bloquer ou contester ces demandes. En outre, plus une proprit Internet est bien classe (plus populaire), plus elle est susceptible d’tre cible par des bots d’IA et, corrlativement, plus elle est susceptible de bloquer ces demandes.

Cloudflare a vu des oprateurs de sites web bloquer compltement l’accs ces crawlers d’IA l’aide de robots.txt. Toutefois, ces blocages dpendent du fait que l’oprateur du bot respecte le fichier robots.txt et adhre la norme RFC9309 (en veillant ce que les variations de l’utilisateur contre correspondent toutes au jeton de produit) pour identifier honntement qui ils sont lorsqu’ils visitent une proprit Internet, mais les agents utilisateurs sont triviaux modifier pour les oprateurs de bot.

Comment Cloudflare trouve les bots d’IA qui se font passer pour de vrais navigateurs web

Malheureusement, Cloudflare a observ des oprateurs de bots tenter d’apparatre comme s’ils taient un vrai navigateur en utilisant un agent utilisateur usurp. Cloudflare a surveill cette activit au fil du temps, et annonce firement que son modle mondial d’apprentissage automatique a toujours reconnu cette activit comme un bot, mme lorsque les oprateurs mentent propos de leur agent utilisateur.

Prenons l’exemple d’un bot spcifique dont d’autres ont observ qu’il cachait son activit. Cloudflare a effectu une analyse pour voir comment ses modles d’apprentissage automatique ont not le trafic provenant de ce bot. Dans le diagramme ci-dessous, vous pouvez voir que tous les scores de bot sont fermement infrieurs 30, ce qui indique que la notation pense que cette activit est susceptible de provenir d’un bot.

Le diagramme reflte l’valuation des demandes l’aide du modle le plus rcent de Cloudflare, o les couleurs « chaudes » indiquent que plus de demandes entrent dans cette bande, et les couleurs « froides » indiquent que moins de demandes y sont incluses. On constate que la grande majorit des demandes se situent dans les deux bandes infrieures, ce qui montre que le modle de Cloudflare a attribu au bot incrimin un score de 9 ou moins. Les modifications apportes l’agent utilisateur n’ont aucun effet sur le score, car c’est la toute premire chose attendue de la part des oprateurs de bot.

Tout client disposant d’une rgle WAF existante configure pour mettre au dfi les visiteurs ayant un score de bots infrieur 30 a automatiquement bloqu l’ensemble de ce trafic de bot d’IA sans nouvelle action de sa part. Il en sera de mme pour les futurs bots d’IA qui utilisent des techniques similaires pour dissimuler leur activit.

Les signaux globaux de Cloudflare ont servi calculer le Bot Score, qui, pour les bots d’IA comme celui ci-dessus, reflte le fait qu’ils sont identifis et classs correctement en tant que « bot probable ».

Lorsque les acteurs malveillants tentent de crawler des sites Web l’chelle, ils utilisent gnralement des outils et des frameworks que nous sommes en mesure d’identifier par empreinte digitale. Pour chaque empreinte que nous voyons, nous utilisons le rseau de Cloudflare, qui reoit en moyenne plus de 57 millions de requtes par seconde, afin de dterminer dans quelle mesure nous devons nous fier cette empreinte. Pour alimenter nos modles, nous calculons des agrgats globaux pour de nombreux signaux. Sur la base de ces signaux, nos modles ont t en mesure de signaler de manire approprie le trafic provenant de bots d’IA vasifs, comme l’exemple mentionn ci-dessus, en tant que bots. Ces donnes agrges l’chelle mondiale nous permettent de dtecter immdiatement les nouveaux outils de scraping et leur comportement, sans qu’il soit ncessaire de relever manuellement l’empreinte du bot, ce qui garantit que les clients restent protgs contre les nouvelles vagues d’activits de bots., dclarent les ingnieurs de Cloudflare.

Si vous avez des informations sur un bot d’intelligence artificielle qui ne se comporte pas correctement, Cloudflare serait ravi d’enquter. Vous disposez de deux options pour signaler les crawlers d’IA qui ne se comportent pas correctement :

1. Les clients Enterprise Bot Management de Cloudflare peuvent soumettre un rapport Feedback Loop faux ngatif via Bot Analytics en slectionnant simplement le segment de trafic o ils ont remarqu un mauvais comportement :

2. Cloudflare a galement mis en place un outil de reporting o tout ses clients peuvent soumettre des rapports sur un bot d’IA scrappant votre site web sans autorisation.

Avec la crainte que certaines entreprises d’IA dtermines contourner les rgles pour accder au contenu s’adaptent de manire persistante pour chapper la dtection des bots. Cloudflare continuera surveiller et ajouter d’autres blocs de bots sa rgle AI Scrapers and Crawlers et faire voluer ses modles d’apprentissage automatique pour aider maintenir Internet comme un endroit o les crateurs de contenu peuvent prosprer et garder le plein contrle sur les modles sur lesquels leur contenu est utilis pour former ou excuter l’infrence.

Source : Cloudflare

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative de Cloudflare judicieuse et pertinente ?