Crawlers et IA : la CNIL clarifie les bonnes pratiques

Crawlers et IA : la CNIL clarifie les bonnes pratiques



L’engouement pour l’intelligence artificielle se traduit également par un engouement pour les données. Cloudflare mentionnait l’an passé que le nombre de requêtes provenant de robots utilisés par des fournisseurs de solutions d’intelligence artificielle a explosé au cours des trois dernières années.

Si la pratique qui consiste à utiliser des programmes automatisés pour récolter des données sur le web n’est pas nouvelle, l’utilisation de ces données pour entraîner des modèles d’intelligence artificielle pose de nouvelles questions.

Notamment sur les conditions à respecter pour rester dans le cadre légal.

Respecter les limites

Après avoir mené pendant plusieurs mois une consultation publique, la CNIL met à jour ses fiches de recommandations de bonnes pratiques à destination de ceux qui souhaitent effectuer ce type de collecte.

Certaines recommandations relèvent du bon sens. La CNIL rappelle qu’un robot de crawling (ou moissonnage de données en français) doit veiller à respecter les limites imposées par les différents sites qu’il visite. Et ce que ce soit au moyen du fichier robots.txt ou au travers d’outils de type captcha destinés à limiter l’accès des outils automatisés.

En plus de cela, la CNIL recommande la mise en place de mesures supplémentaires en fonction « de l’usage prévu pour l’IA entraînée et de l’impact effectif de ce système sur les personnes concernées. »

Collecter, mais pas n’importe comment

Ainsi, un robot collectant des données peut se fonder sur la base légale de l’intérêt légitime pour justifier la collecte et le traitement des données. Mais l’opérateur de cet outil doit avoir pris des mesures pour s’assurer que son robot :

  • Ne collecte pas de données sensibles
  • Pour que l’information des personnes concernées par la collecte soit possible
  • Et qu’un droit d’opposition à cette collecte soit effectif

A titre d’exemple, la CNIL explique qu’un robot collectant de manière indiscriminée des échantillons vocaux pour alimenter un modèle de synthèse vocale, « sans prendre aucune garantie supplémentaire pour protéger les données d’entraînement ni limiter les risques de réutilisation illicite ou malveillante » ne peut se réclamer d’un « intérêt légitime » pour justifier cette collecte de données.

L’appétit sans fin des IA

La question se pose de manière insistante depuis le début de l’année 2024. Notamment depuis que Meta a tenté d’invoquer cet « intérêt légitime » pour justifier la collecte des publications de ses utilisateurs afin d’entraîner ses outils d’intelligence artificielle.

Le débat a finalement été tranché en fin d’année 2024 par une décision du Comité Européen de Protection des Données.

Celui-ci a validé le fait que ce type de collecte de données personnelles pouvait effectivement se passer du consentement des utilisateurs. Mais à condition de prendre en compte un certain nombre de critères visant à s’assurer le respect des droits des internautes européens.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.