Si vous craignez que des robots ne récupèrent le contenu de votre site web pour entraîner une intelligence artificielle, Cloudflare dit avoir une parade.
L’entreprise, qui affirme être le mandataire d’environ 20 % du web, a mis en place un nouvel outil qui empêche tous les robots d’IA de siphonner le texte d’un site. Cloudflare précise que cet outil est disponible pour tous les clients, y compris ceux qui utilisent la version gratuite.
Les web scrapers sévissent pour l’IA
Avec l’essor de l’IA générative, les entreprises ont besoin de contenu pour former les chatbots. Nombre d’entre elles se tournent vers les « web scrapers », des outils automatisés qui extraient le texte des sites pour l’analyser (comme ChatGPT le fait avec les posts Reddit). Certaines sociétés font preuve de transparence par rapport à cette pratique, d’autres non.
En septembre dernier, Cloudflare a mis en place une fonctionnalité permettant aux utilisateurs de bloquer les « mauvais » robots d’indexation, c’est-à-dire ceux qui récupèrent des sites sans autorisation. Sans surprise, certaines entreprises ont trouvé un moyen de contourner cet obstacle en utilisant des robots qui se font passer pour des robots authentiques. Le nouvel outil de Cloudflare bloque tous les robots d’IA, même ceux qui respectent le protocole approprié.
Encore peu de sites se protègent contre cette collecte de données
En juin 2024, les robots d’intelligence artificielle ont accédé à environ 39 % du million de « propriétés internet » les plus importantes utilisant Cloudflare, indique la société. Moins de 3 % de ces sites ont pris des mesures pour bloquer les robots d’intelligence artificielle. Selon Cloudflare, les quatre principaux robots qui ont accédé à ses sites étaient Bytespider, Amazonbot, ClaudeBot et GPTBot.
Bytespider, qui appartient à Bytedance, la maison-mère de TikTok, est utilisé pour recueillir des données d’entraînement pour ses grands modèles de langage, notamment Doubao, le rival de ChatGPT. Amazonbot est utilisé pour former le côté réponse aux questions d’Alexa, ClaudeBot forme Claude AI, et GPTBot forme ChatGPT.
L’outil de Cloudflare saura s’adapter aux évolutions
Si vous êtes un client de Cloudflare, l’utilisation de l’outil est simple. Il vous suffit de vous rendre dans la section Paramètres de votre tableau de bord, puis de cliquer sur Sécurité et Bots. Vous y trouverez un bouton intitulé « AI Scrapers and Crawlers ». Activez-le et les robots d’intelligence artificielle n’auront plus accès à votre contenu.
Bien entendu, les robots d’intelligence artificielle évoluent constamment. Cloudflare affirme que cette fonction s’adaptera automatiquement au fur et à mesure qu’elle détectera les « empreintes digitales » des bots en infraction.
Le nouvel outil est disponible dès aujourd’hui pour tous les utilisateurs de Cloudflare.