Le site communautaire Reddit accuse 4 sociétés d’IA d’avoir « volé » ses données « à échelle industrielle »

Le site communautaire Reddit accuse 4 sociétés d'IA d'avoir « volé » ses données « à échelle industrielle »



Reddit déclare la guerre aux scrapers, les robots d’indexation du Web, et attaque la start-up d’IA Perplexity, ainsi que trois entreprises spécialisées dans la collecte de données, des data indispensables à la formation d’un outil d’intelligence artificielle. Pour la plateforme de discussions en ligne, Perplexity a préféré « acheter des données volées plutôt que de conclure un accord ».

« Vous avez utilisé nos données pour votre IA : vous devez nous payer ». La plateforme de discussion en ligne Reddit a attaqué mercredi 22 octobre aux États-Unis la société d’intelligence artificielle Perplexity AI ainsi que trois autres sociétés. Son grief : ces entreprises, dont la première a développé un chatbot IA et un moteur de recherche IA concurrençant ChatGPT et Google, seraient impliquées dans une activité « illégale à l’échelle industrielle » visant à « récupérer » les commentaires de millions d’utilisateurs de Reddit, à des fins commerciales.

Le site communautaire comprend des millions de forums et de conversations humaines : il aurait été pillé à échelle industrielle par Perplexity, mais aussi SerApi, OxyLabs et AWMProxy, sans autorisation et sans paiement de la moindre licence. La plainte a été déposée devant un tribunal fédéral de New York. Reddit demande des dommages et intérêts, et une interdiction de tout pillage et toute récupération ultérieure.

Des robots qui volent les données et les revendent aux starts-up de l’IA

Les scrapers, ces robots d’indexation qui explorent le Web et qui ingurgitent sans autorisation des contenus à des fins d’entraînement d’IA, « contournent les protections technologiques pour voler des données, puis les vendent à des clients avides de contenus de formation. Reddit est une cible de choix, car il s’agit de l’une des collections de conversations humaines les plus importantes et les plus dynamiques jamais créées », a déploré Ben Lee, directeur juridique de Reddit, cité dans un communiqué publié mercredi.

En juin dernier, Reddit avait attaqué Anthropic, un autre géant américain de l’IA. Cette fois, l’action en justice inclut des services moins connus sur lesquels l’industrie de l’IA s’appuie pour acheter des données nécessaires à l’entraînement des IA. À côté de Preplexity, trois autres entreprises sont ciblées par la plainte : la société lituanienne de scraping Oxylabs UAB, AWMProxy qui serait un « ancien botnet russe », et la start-up texane SerpApi. Leurs outils permettraient, selon Reddit, d’« échapper aux mesures anti-scraping de Reddit ». 

Pour passer par-dessus les barrières de Reddit, « SerpApi, Oxylabs et AWMProxy récupèrent plutôt les données à partir des résultats de recherche Google. Pour ce faire, ils masquent leur identité, dissimulent leur emplacement et déguisent leurs scrapers Web en personnes ordinaires (entre autres techniques) afin de contourner ou de passer outre les restrictions de sécurité destinées à les arrêter », soulignent les auteurs de la plainte.

« Perplexity est le client assumé d’au moins un de ces collecteurs de données, choisissant d’acheter des données volées plutôt que de conclure un accord directement avec Reddit », regrette le directeur juridique de Reddit.

Perplexity se défend en invoquant « le droit des utilisateurs à accéder librement et équitablement aux connaissances publiques »

Il s’agit du deuxième procès de ce type intenté par Reddit qui poursuit depuis juin dernier une autre grande entreprise d’IA, Anthropic. Dans le passé, la plateforme de forums a signé des accords avec Google et OpenAI. Avec cette action, Reddit rejoint le camp fourni des fournisseurs de contenus et des ayants droit qui s’estiment pillés par les entreprises de l’IA. Ces dernières, qui refusent souvent de divulguer les données dont elles se sont servies pour former leur IA, sont accusées d’utiliser sans la moindre autorisation et la moindre compensation de très nombreuses data (images, œuvres, photographies, livres, personnages etc protégées par le droit d’auteur ou d’autres lois) trouvées sur le Web.

Interrogée par le Financial Times, Perplexity explique qu’elle contestera devant les tribunaux les accusations de la plateforme. Sans répondre aux accusations sur l’utilisation des données, la start-up explique qu’elle compte bien se battre « avec vigueur pour le droit des utilisateurs à accéder librement et équitablement aux connaissances publiques. Nous fournissons des réponses factuelles grâce à une IA précise, et nous ne tolérerons aucune menace contre l’ouverture et l’intérêt public ».

À lire aussi : « L’IA est en train de dévorer la culture japonaise » : le Japon tape du poing sur la table contre Sora, le générateur de vidéos IA d’OpenAI

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google Actualités, abonnez-vous à notre canal WhatsApp ou suivez-nous en vidéo sur TikTok.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.