ChatGPT est victime d’une nouvelle faille de sécurité. En exploitant cette brèche, il est possible d’extraire des données sensibles concernant des individus en s’adressant au chatbot d’OpenAI.
Des chercheurs de l’Université de l’Indiana (États-Unis) sont parvenus à contourner les mécanismes de sécurité de ChatGPT. En s’adressant au chatbot, ils ont réussi à exfiltrer des données sensibles, logées dans le corpus de formation de GPT-3.5 Turbo, l’un des modèles d’IA développés par OpenAI.
Les chercheurs ont ainsi pu obtenir la liste des adresses mail professionnelles et personnelles d’une trentaine d’employés du New York Times. L’un des scientifiques à l’origine de l’expérience est alors entré en contact avec un des journalistes du quotidien new-yorkais, expliquant avoir pu « contrer les restrictions du modèle sur la réponse aux questions relatives à la protection de la vie privée ».
À lire aussi : comment créer son propre ChatGPT
L’attaque Janus
OpenAI a pris une foule de précautions pour éviter que des données sensibles se retrouvent dans la base de données à l’origine de ses modèles linguistiques. Les modèles de langage sont en effet formés à l’aide d’une montagne de données issues d’Internet. Cet amoncellement d’informations comprend des données, parfois sensibles, sur des internautes. Soucieux de préserver la vie privée des internautes, OpenAI a ordonné à ChatGPT de refuser systématiquement les demandes de renseignements personnels.
« Nous formons nos modèles à rejeter les demandes d’informations privées ou sensibles sur les personnes, même si ces informations sont disponibles sur Internet », explique OpenAI au New York Times.
Pour faire rejaillir des données privées en dépit des précautions d’OpenAI, les chercheurs ont injecté des informations vérifiées sur la même thématique en communiquant avec le robot conversationnel. Concrètement, ils ont donné à ChatGPT une liste de noms et d’adresses électroniques concernant des employés du New York Times. Sur base de cette première liste, l’IA a pu fois fouiller dans sa « mémoire » et ressortir d’autres adresses mail, enfouies dans les limbes de sa base de données d’entraînement. La stratégie des chercheurs a été baptisée l’attaque Janus. Elle se base sur les réglages fins, qui permettent aux développeurs de « personnaliser le modèle afin de créer des expériences uniques et différenciées pour leurs utilisateurs ». Ces réglages ont nettement diminué la capacité du modèle à refuser les demandes concernant des données confidentielles.
Dans l’étude, les chercheurs pointent du doigt « l’accumulation potentielle par inadvertance d’informations personnelles identifiables lors de l’acquisition de données sur le Web ». Ce type de données est considéré comme sensible, car elles permettent d’identifier une personne. Sans surprise, ChatGPT a parfois généré des réponses erronées durant l’opération Janus. Le chatbot a répondu avec des adresses fictives, ou avec quelques caractères oubliés ou ajoutés. Comme toujours, il arrive que l’IA se mette à halluciner, c’est-à-dire à raconter n’importe quoi. Néanmoins, les chercheurs ont remarqué que 80 % des adresses fournies étaient justes. Pourtant, OpenAI prétend que ses modèles « n’ont pas accès aux informations de formation après en avoir tiré des leçons ».
Ce n’est pas la première fois que ChatGPT est épinglé pour sa propension à divulguer des informations sensibles sur les internautes. Il y a quelques semaines, des chercheurs ont découvert que certaines requêtes poussent le chatbot à communiquer les données avec lesquelles il a été formé. Contacté par le New York Times, le Dr. Prateek Mittal, professeur en informatique à l’université de Princeton, estime qu’aucun modèle d’IA « n’a de solides défenses pour protéger la vie privée ». À ses yeux, ce manquement est « un énorme risque ».
Source :
New York Times