L’une des plus grandes violations de donnes jamais survenues expose les informations sensibles de 2,9 milliards de personnes sur le dark Web, Et relance le dbat sur les proccupations lies au Web scraping

Une faille dans l’entreprise de vrification d’antcdents National Public Data aurait entran la divulgation des donnes personnelles de 2,9 milliards de personnes sur le dark Web. National Public Data s’appuie sur le scraping pour collecter et stocker des informations d’identification personnelle partir de sources non publiques afin de vrifier les antcdents de milliards de personnes. Il le fait sans le consentement des personnes concernes. Cela signifie que de nombreuses victimes ne savent peut-tre pas que leurs informations sensibles telles que les numros de scurit sociale, les noms complets, les adresses, les informations sur les parents ont t exposes.

Les informations personnelles d’environ 3 milliards de personnes exposes sur le dark Web

National Public Data (galement connue sous le nom de Jerico Pictures) se prsente comme un fournisseur de donnes d’archives publiques spcialis dans la vrification des antcdents et la prvention des fraudes. L’entreprise explique qu’elle obtient ses informations partir de diverses bases de donnes d’archives publiques, de dossiers judiciaires, de bases de donnes nationales et d’tat et d’autres rfrentiels dans tout le pays. Le mode opratoire consiste explorer (gratter) le Web la recherche de tout type d’information, ce qui signifie que les informations ne sont pas donnes volontairement cette entreprise.

National Public Data a dclar que ses services sont actuellement utiliss par des enquteurs, des sites Web de vrification d’antcdents, des revendeurs de donnes, des applications mobiles, des applications et bien plus encore. Cependant, une gigantesque brche dans son rseau a permis un groupe de pirates informatiques d’exfiltrer des donnes personnelles sur des milliards de personnes. Cette nouvelle violation massive de donnes a t rvle dans le cadre d’une action collective intente au dbut du mois contre National Public Data. La plainte indique que plus de 2,9 milliards de personnes sont concernes.

La plainte a t dpose auprs du tribunal de district des tats-Unis pour le district sud de la Floride. Le principal plaignant Christopher Hofmann affirme avoir t alert par son fournisseur de services de protection contre l’usurpation d’identit que ses donnes ont t exposes et diffuses sur le dark Web. Le groupe de cybercriminels ASDoD avait mis en vente, pour 3,5 millions de dollars, une base de donnes contenant les donnes personnelles des personnes concernes.

Les plaignants accusent National Public Data de ngligence, de manquement l’obligation fiduciaire et au contrat de tiers bnficiaire, et d’enrichissement sans cause. Hofman rclame une compensation financire et demande l’entreprise de segmenter les donnes, d’analyser les bases de donnes, d’utiliser un systme de gestion des menaces et de nommer un valuateur tiers charg de procder une valuation de ses cadres de cyberscurit chaque anne pendant dix ans.

Il a t demand au tribunal d’exiger de National Public Data qu’il purge les donnes personnelles de toutes les personnes concernes et qu’il chiffre toutes les informations collectes l’avenir. Si cette dcision est confirme, il s’agirait de l’une des plus importantes violations de donnes jamais survenues (aprs celle de Yahoo! en 2013 qui a touch trois milliards de clients.). Et l’on ignore toujours comment la violation de donnes s’est produite.

La collecte massive de donnes par National Public Data suscite plusieurs proccupations

Comment une socit comme National Public Data peut-elle obtenir les donnes personnelles de prs de 3 milliards de personnes ? La rponse se trouve dans le Web scraping (grattage Web), une technique utilise par les entreprises pour collecter des donnes partir de sites Web et d’autres sources en ligne. Le caractre lgal du grattage Web reste flou. Dans l’ensemble, il est illgal selon certains experts. La manire dont National Public Data a procds est d’autant plus proccupante que l’entreprise a rcupr des informations personnelles identifiables (PII) de milliards de personnes partir de sources non publiques.

Par consquent, un grand nombre des personnes aujourd’hui impliques dans le recours collectif n’ont pas fourni leurs donnes personnelles l’entreprise de leur plein gr. Pire encore, certaines victimes ne savent peut-tre mme pas qu’elles sont concernes. Il convient de noter qu’en raison du nombre de personnes touches, les donnes proviennent probablement la fois des tats-Unis et d’autres pays. Les informations divulgues comprennent : noms et prnoms, adresses anciennes et actuelles, numros de scurit sociale ainsi que des informations lies aux membres de la famille et aux proches, vivants ou dcds.

National Public Data n’a pas encore ragi la plainte, mais la socit devra probablement publier une notification de violation de donnes prochainement, tant donn le dsordre dans lequel l’a entrane l’utilisation de sources non publiques pour obtenir des donnes. Les propritaires de ces sources de donnes non publiques pourraient galement dcider de poursuivre National Public Data pour exploitation illgale de leurs bases de donnes et de collecte de donnes illgale.

De nombreuses questions sur cette violation de donnes restent encore sans rponse. En attendant, vous devez tre prudent lorsque vous consultez votre bote de rception ou mme vos messages, car les cybercriminels utilisent souvent ce type de donnes pour lancer des attaques d’hameonnage cibles. Paralllement, vous devez surveiller attentivement vos comptes bancaires et autres comptes financiers pour dtecter tout signe de fraude ou d’activit suspecte.

Une Cour de justice estime qu’il n’est pas illgal de collecter des donnes publiques d’un site

HiQ effectue du Web scraping de profils publics des utilisateurs de LinkedIn, puis les utilise pour aider les entreprises mieux comprendre leurs propres effectifs. Le Web scraping est une technique permettant l’extraction des donnes d’un site via un programme, un logiciel automatique ou un autre site. L’objectif est donc d’extraire le contenu d’une page d’un site de faon structure. Le scraping permet ainsi de pouvoir rutiliser ces donnes.

Aprs avoir tolr les activits de Web scraping de hiQ pendant plusieurs annes, LinkedIn a envoy la socit une lettre de cessation et d’abstention en 2017 lui demandant de cesser de collecter des donnes partir de profils LinkedIn. LinkedIn a notamment fait valoir que hiQ violait la Computer Fraud and Abuse Act, la principale loi antipiratage des tats-Unis.

Cela reprsentait une menace existentielle pour hiQ, car le site Web de LinkedIn est la principale source de donnes de hiQ sur les employs de ses clients. HiQ a donc poursuivi LinkedIn en justice, cherchant non seulement dclarer que ses activits de Web scraping ne constituaient pas un piratage, mais galement une ordonnance interdisant LinkedIn dinterfrer.

Un tribunal de premire instance sest rang du ct de hiQ en 2017. Dbut septembre 2019, la Cour dappel du 9e circuit a entrin la dcision de la juridiction infrieure, estimant que la loi sur la fraude et les abus informatiques ne sappliquait tout simplement pas aux informations accessibles au grand public.

La CFAA a t promulgue pour empcher toute intrusion intentionnelle dans l’ordinateur de quelqu’un d’autre, notamment le piratage informatique , a crit un panel de trois juges. La cour a not que lorsque les lgislateurs dbattaient de cette loi, des analogies avec des crimes physiques tels que l’introduction par effraction ont t faites plusieurs reprises. Du point de vue du neuvime circuit, cela implique que la CFAA ne sapplique quaux systmes dinformation ou informatiques qui taient au dpart privs, ce que les propritaires de sites Web signalent gnralement avec un mot de passe.

D’ailleurs en octobre de cette anne-l, la 9e Cour dappel du circuit des tats-Unis a confirm linjonction prliminaire daot 2017 exigeant que LinkedIn permette hiQ Labs Inc davoir accs aux profils de membres disponibles au public. La dcision l’unanimit de la cour dappel de San Francisco a pench en faveur de hiQ sur la question du Web scraping qui, selon les critiques, peut tre assimil un vol ou la violation de la vie prive des utilisateurs.

Une activit encadre

En fonction de la position gographique, les rgles ne sont pas ncessairement les mmes. Dans le droit franais, le Web scraping est encadr par larticle L. 342-3 du Code de la proprit intellectuelle, qui autorise les pratiques suivantes :

l’extraction ou la rutilisation d’une partie non substantielle apprcie de faon qualitative ou quantitative, du contenu de la base, par la personne qui y a licitement accs. Cela signifie que le propritaire du site Web peut limiter le contenu pouvant tre collect de son site, en le prcisant dans ses conditions gnrales dutilisation ;
lextraction des fins prives est autorise, dans le respect des dispositions lgislatives et rglementaires en matire de droits dauteurs et de droits voisins sur les uvres ou les lments incorpors dans la base ;
lextraction et la rutilisation dune partie substantielle, apprcie de faon qualitative ou quantitative, des fins exclusives dillustration dans le cadre de lenseignement et de la recherche et pour un public compos dlves, dtudiants, denseignants ou de chercheurs directement concerns. Ainsi, ce cas de figure tant limit des fins pdagogiques, il est totalement exclu de faire usage des donnes extraites titre commercial par exemple.

Plusieurs sanctions peuvent sappliquer en cas de violation des rgles du Web scraping :

larticle 323-3 du Code pnal punit de 150.000 euros damende et cinq demprisonnement le fait d’introduire frauduleusement des donnes dans un systme de traitement automatis, d’extraire, de dtenir, de reproduire, de transmettre, de supprimer ou de modifier frauduleusement les donnes qu’il contient . Bien entendu, il faut pouvoir prouver lintention frauduleuse du Web scraping dans ce cas-l ;
en droit de la concurrence, le Web scraping peut tre qualifi dun acte de concurrence dloyale ou de parasitisme, si les critres de qualification sont remplis. Dans ce cas, le site Web victime pourra intenter une action en responsabilit dlictuelle et lauteur du Web scraping pourra tre condamn au paiement de dommages et intrts ;
lauteur du Web scraping peut galement tre sanctionn sur le fondement de la proprit intellectuelle en cas de non-respect de larticle L. 342-3 du Code de la proprit intellectuelle ;
enfin, la CNIL (Commission nationale de l’informatique et des liberts), qui a un pouvoir de contrle et de sanction en matire de RGPD, peut sanctionner des pratiques de Web scraping litigieuses sur le fondement du non-respect de la protection des donnes personnelles.

Sources : document de la plainte (PDF), National Public Data

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des pratiques de collecte de donnes de National Public Data ?

Le Web scraping est-il lgal de votre point de vue ? Pourquoi fait-il l’objet d’un dbat sans fin ?

Quels sont les risques de cette violation de donnes pour National Public Data et les personnes concernes ?

Que pensez-vous des demandes des plaignants au tribunal dans le cadre du recours collectif contre National Public Data ?

Y a-t-il des chances que ces demandes soient satisfaites par le tribunal ? Pourquoi ?