Le bot d’OpenAI dtruit le site Web d’une entreprise de sept personnes comme une attaque DDoS , consquences du non-respect de robots.txt

La question de la gestion du scraping et du crawling des robots, notamment par des entreprises dintelligence artificielle comme OpenAI, soulve des proccupations croissantes parmi les propritaires de sites web. Un incident rcent a mis en lumire ces enjeux : le site de Triplegangers, une petite entreprise spcialise dans la vente de modles 3D de doubles numriques humains , a t gravement perturb par un bot dOpenAI qui a effectu un scraping agressif sur ses pages. Ce bot a gnr une quantit massive de requtes, affectant la performance du site et provoquant des interruptions similaires celles observes lors dattaques par dni de service distribu (DDoS).

Cet vnement illustre des problmatiques complexes lies lutilisation des fichiers robots.txt , qui permettent thoriquement de contrler l’accs des robots aux sites web. Pourtant, mme avec une configuration approprie de ces fichiers, des dfis subsistent, notamment en raison du non-respect des directives par certains crawlers et de la lenteur de leur rponse aux mises jour. Les entreprises dIA, en particulier, semblent contourner ces protocoles, ce qui complique davantage la gestion des droits d’auteur et la protection des donnes, en particulier dans des domaines o les informations sont sensibles, comme les images de personnes relles.

L’incident de Triplegangers soulve galement des questions sur les implications juridiques du non-respect des fichiers robots.txt. Bien qu’il ne s’agisse pas d’un contrat juridiquement contraignant, certains commentateurs estiment que l’impact financier et logistique des pratiques de scraping agressif pourrait justifier des recours, notamment dans des situations o le scraping mne une surcharge des ressources ou une violation des droits des propritaires de contenu. Cette situation rvle galement une lacune dans la transparence des pratiques des entreprises de technologie, telles qu’OpenAI, qui n’ont pas encore mis en place des mcanismes efficaces pour permettre aux entreprises affectes de faire valoir leurs droits, ou pour retirer le contenu collect sans autorisation.

L’importance d’une rgulation stricte pour protger les donnes sensibles

OpenAI a envoy des dizaines de milliers de requtes pour tenter de tlcharger l’intgralit du site de Triplegangers, y compris des centaines de milliers de photos et leurs descriptions dtailles. Le robot a utilis jusqu 600 adresses IP pour collecter les donnes, et nous continuons d’analyser les logs de la semaine dernire ; il pourrait y en avoir encore plus , a expliqu Tomchuk. Il a ajout : Leur robot a compltement satur notre site, ctait pratiquement une attaque DDoS.

Triplegangers, une entreprise de sept personnes, possde l’une des plus grandes bases de donnes de doubles numriques humains : des modles 3D d’images scannes partir de vrais modles humains. Ces fichiers sont vendus aux crateurs de jeux vido et aux artistes 3D pour recrer des caractristiques humaines authentiques. Le site contient des images trs dtailles, couvrant des aspects comme l’origine ethnique, l’ge, les tatouages et les cicatrices.

Malgr la prsence d’une page de conditions d’utilisation interdisant le scraping non autoris, le robot d’OpenAI a continu d’explorer le site, ignorant les directives de celui-ci. Pour protger son contenu, Triplegangers a mis en place un fichier robots.txt bien configur et un compte Cloudflare pour bloquer non seulement GPTBot d’OpenAI, mais aussi d’autres robots, comme Barkrowler et Bytespider. Bien que ces mesures aient rtabli l’accs au site, Tomchuk n’a toujours aucun moyen de savoir exactement quelles donnes ont t collectes par OpenAI, et na trouv aucune mthode pour contacter l’entreprise.

OpenAI dclare respecter les fichiers robots.txt, mais ces derniers ne sont pas une solution garantie. Les entreprises dIA, comme Perplexity, ont parfois ignor ces rgles, ce qui complique la gestion de la collecte de donnes. Triplegangers, un site particulirement vulnrable ce type de collecte en raison de la nature sensible de ses images, se retrouve dans une situation dlicate, car des lois comme le RGPD interdisent l’utilisation non autorise des donnes personnelles. Paradoxalement, cest lagressivit du robot dOpenAI qui a permis l’entreprise de dcouvrir sa vulnrabilit, un problme quelle naurait pas remarqu si le scraping avait t plus discret.

Pourquoi le fichier robots.txt ne suffit plus protger les sites web

L’incident dcrit soulve plusieurs problmatiques concernant la collecte de donnes par les bots d’IA, notamment le respect du fichier robots.txt et les consquences de son non-respect pour les petites entreprises comme Triplegangers.

Tout d’abord, il est vident que l’agressivit des bots, en particulier ceux d’OpenAI, a des effets ngatifs sur des sites qui ne disposent pas des ressources ncessaires pour grer un tel trafic. L’exemple de Triplegangers, qui voit son site paralys par un nombre excessif de requtes, illustre bien ce problme. Mme avec un fichier robots.txt correctement configur, les entreprises peuvent se retrouver dans l’incapacit de protger leur contenu, car les robots ne sont pas juridiquement contraints de respecter ce fichier. Cette situation met en lumire une lacune dans la rgulation du scraping, qui, bien que techniquement possible, n’est pas toujours respect par les acteurs majeurs.

Ensuite, la transparence et la communication jouent un rle crucial dans ce contexte. L’absence de moyen pour Triplegangers de savoir exactement ce qui a t rcupr par OpenAI est proccupante. Sans outil de retrait ni rponse d’OpenAI, cette situation cre un sentiment d’impuissance face l’exploitation non autorise de donnes sensibles. Cela soulve la question de la responsabilit des entreprises d’IA dans la gestion des donnes qu’elles collectent, et la ncessit de crer des mcanismes plus efficaces pour permettre aux propritaires de sites de demander le retrait de contenu.

De plus, largument des droits dimage et de la protection des donnes personnelles, comme le souligne Triplegangers, est particulirement pertinent dans des secteurs comme celui-ci, o des images de personnes relles sont utilises. Les entreprises d’IA doivent respecter des lois comme le RGPD, qui interdit la collecte non autorise d’informations personnelles. Cela devient encore plus problmatique lorsque les donnes sont rcupres grande chelle, sans consentement explicite, ce qui pourrait constituer une violation des droits individuels.

Enfin, l’ironie de la situation rside dans le fait que lavidit des robots pour explorer le contenu a permis Triplegangers de se rendre compte de la vulnrabilit de son site. Si les robots avaient agi de manire plus discrte, cette exploitation des donnes pourrait tre passe inaperue. Cela dmontre qu’il existe une fine ligne entre l’exploitation lgitime des donnes publiques et l’abus de pouvoir technologique.

En conclusion, bien que robots.txt serve de garde-fou, il ne suffit pas protger efficacement les sites contre les collectes de donnes abusives. Les entreprises d’IA doivent tre soumises des rgulations plus strictes et des mcanismes de responsabilisation pour garantir que la collecte de donnes se fasse dans le respect des droits des crateurs et des utilisateurs. Le non-respect de robots.txt soulve des questions thiques et juridiques qui doivent tre prises au srieux, et les propritaires de sites doivent disposer d’outils adquats pour protger leur contenu et leurs donnes.

Source : Triplegangers

Et vous ?

Quel est votre avis sur le sujet ?

Le scraping agressif des robots d’IA peut-il tre considr comme une forme d’attaque par dni de service (DDoS) ? Si oui, quelles mesures de protection supplmentaires les petites entreprises devraient-elles envisager ?

Les fichiers robots.txt devraient-ils tre juridiquement contraignants pour garantir la protection des sites contre le scraping non autoris ?

Voir aussi :

Le mot bot est de plus en plus utilis comme une insulte sur les mdias sociaux. Les gens semblent l’employer dsormais pour insulter les personnes avec lesquelles ils ne sont pas d’accord

Meta lance un nouveau bot Meta-ExternalAgent afin d’explorer massivement le web pour obtenir des donnes d’entranement de l’IA, en utilisant des moyens sournois pour viter d’tre bloqu

Oui, je suis un humain : la dtection des robots ne fonctionne plus. Et attendez l’arrive des agents d’IA, les dveloppeurs devront faire la diffrence entre les bons bots et les mauvais bots

Source link

Laisser un commentaire Annuler la réponse