OpenAI s’engage remdier la vulnrabilit de fuite de donnes dans ChatGPT, Tandis que DeepMind et des universits mettent en lumire une faille exposant des donnes d’entranement

OpenAI a rcemment pris des mesures pour attnuer une vulnrabilit de fuite de donnes dans ChatGPT, qui permettait aux attaquants d’exfiltrer des donnes via l’injection d’image markdown. Bien que la correction ne soit pas parfaite, elle reprsente un pas dans la bonne direction. L’attnuation consiste en un appel ct client ChatGPT une API de validation lorsqu’une balise image est renvoye par le serveur, dcidant ainsi d’afficher ou non l’image.

ChatGPT est un outil d’intelligence artificielle qui permet d’engager des conversations de manire similaire un tre humain et offre des fonctionnalits tendues avec son chatbot. Ce modle linguistique est capable de rpondre des questions et de vous assister dans diverses tches, telles que la rdaction de courriels, d’essais et de codes. L’accs au chatbot est actuellement ouvert au public et gratuit. Paralllement, OpenAI a lanc une version payante par abonnement appele ChatGPT Plus.

OpenAI, une entreprise spcialise dans l’intelligence artificielle et la recherche, est l’origine de la cration de ChatGPT. Le dploiement de ChatGPT a eu lieu le 30 novembre 2022. OpenAI est galement reconnue pour avoir dvelopp DALL-E 2, un gnrateur d’art bas sur l’IA, ainsi que Whisper, un systme de reconnaissance vocale automatique.

Dans un article de blog publi le 20 dcembre, Johann Rehberger, Chef d’quipe chez Electronic Arts, partage ses constatations suite une dmonstration de vol de donnes GPT avec une victime consentante. Il mentionne que ChatGPT tait toujours vulnrable l’exfiltration de donnes via l’injection d’image markdown, et mon serveur recevait les dtails de la conversation .

La vulnrabilit d’exfiltration de donnes avait t signale pour la premire fois OpenAI au dbut du mois d’avril 2023, mais aucune correction n’avait t apporte. partir d’aujourd’hui, il semble que certaines mesures d’attnuation aient finalement t mises en place. Donnes d’entranement pour les modles linguistiques. Les grands modles linguistiques (LLM) de pointe sont pr-entrans sur de vastes corpus de textes constitus de milliards ou de trillions de mots.

Pour les modles propritaires tels que GPT-4 et PaLM2, ces ensembles d’entranement sont tenus secrets afin de cacher vraisemblablement le pipeline de collecte de donnes propritaire de l’entreprise, et toutes les donnes d’entranement prives, spcifiques l’utilisateur ou sous licence qui ne sont pas accessibles au public.

Cependant, des inquitudes persistent quant la possibilit de fuites de donnes, malgr cette amlioration.

L’attnuation est diffrente des correctifs des autres fournisseurs, et ne s’applique actuellement qu’ l’application web. Le manque de dtails sur le processus de validation et la limitation actuelle l’application web suscitent des proccupations, tandis que la version iOS demeure vulnrable.

Lorsque le serveur renvoie une balise image avec un lien hypertexte, il y a maintenant un appel ct client ChatGPT une API de validation avant de dcider d’afficher une image. L’appel est fait une extrmit appele url_safe :

https://chat.openai.com/backend-api/conversation/[id]/url_safe

o il ajoute l’URL cible en tant que paramtre de requte

?url=https://wuzzi.net/r?thief=johannr@example.org

et dans ce cas, il revient :

{« safe »:false}

safe=false signifie qu’il ne rendra pas l’image et n’enverra pas la requte au serveur du cybercriminel.

Cependant, il rend encore parfois d’autres images (provenant de domaines arbitraires).

Comme ChatGPT n’est pas open source et que la correction ne passe pas par une politique de scurit du contenu (visible et inspectable par les utilisateurs et les chercheurs), les dtails exacts de la validation ne sont pas connus. Il est possible que ChatGPT interroge l’index Bing pour savoir si une image est valide et prexistante, ou qu’il dispose d’autres capacits de suivi et/ou d’autres contrles.

Selon Rehberger, le fait de disposer d’une API de validation centrale signifie galement, nous l’esprons, que les entreprises clientes seront en mesure de configurer ce paramtre afin d’accrotre la scurit de ChatGPT dans leur environnement.

Des inquitudes persistent face une solution imparfaite

Comme indiqu par Rehberger, ce n’est pas une solution parfaite. Les fuites sont toujours possibles. Il est toujours possible d’envoyer des requtes des domaines arbitraires, et donc d’envoyer des donnes l’extrieur. Des astuces videntes comme la division du texte en caractres individuels et la cration d’une requte par caractre, par exemple, ont montr un certain succs (limit) premire vue.

Il n’y a que de petites fuites de cette faon, c’est lent et plus perceptible pour un utilisateur et aussi pour OpenAI si les journaux de l’API url_safe sont examins et surveills.

Bien que l’attnuation soit salue comme un progrs, des suggestions sont faites pour renforcer davantage la scurit, notamment en limitant le nombre d’images rendues par rponse et en clarifiant les critres de validation des URL. En dpit de ces rserves, l’auteur se flicite de l’attention porte aux vulnrabilits de ChatGPT par OpenAI.

Google DeepMind et un ensemble d’universits dcouvrent une vulnrabilit dans ChatGPT

La vulnerabilit prsent par Rehberger nest pas un cas isol. Des chercheurs en scurit de Google DeepMind et d’un ensemble d’universits ont dcouvert une vulnrabilit ChatGPT qui expose des donnes d’entranement, dclenches uniquement en demandant au chatbot de rpter un mot particulier l’infini.

Dcouvert une vulnrabilit ChatGPT qui expose des donnes d’entranement

La vulnrabilit du ChatGPT est dcrite dans un nouveau rapport rdig par une douzaine de chercheurs de Google DeepMind, de l’universit Cornell, de la CMU, de l’UC Berkeley, de l’ETH Zurich et de l’universit de Washington.

Les chercheurs ont dcouvert que lorsqu’on demande ChatGPT de rpter ternellement un mot comme pome ou partie , il le fait pendant quelques centaines de rptitions. Ensuite, il s’effondre et se met cracher un charabia apparent, mais ce texte alatoire contient parfois des donnes identifiables telles que des signatures d’adresses lectroniques et des informations de contact. L’incident soulve des questions non seulement sur la scurit du chatbot, mais aussi sur l’origine exacte de toutes ces informations.

Les chercheurs affirment que les tests de la vulnrabilit ChatGPT ont permis d’obtenir des informations personnellement identifiables pour des dizaines de personnes, telles que des identifiants d’utilisateur et des adresses bitcoin. Des informations explicites provenant de sites de rencontres ont galement pu tre extraites des donnes d’entranement si un mot apparent tait utilis comme invite.

Les chercheurs ont galement trouv des informations protges par le droit d’auteur ou non publiques sous la forme de fragments de code de programmation et de passages entiers de livres ou de pomes. Les chercheurs ont dclar avoir dpens 200 USD au total en requtes et avoir ainsi extrait environ 10 000 de ces blocs de donnes d’entranement mmorises mot mot.

Le rapport note que l’attaque ne fonctionne pas contre d’autres grands modles de langage, et les sources mdiatiques qui ont tent de reproduire les rsultats ont trouv soit des rsultats diffrents, soit le modle fonctionnant normalement. Les chercheurs affirment qu’ils ont divulgu de manire responsable la vulnrabilit OpenAI le 30 aot et que le problme a t corrig, mais la capacit du correctif attnuer le problme reste incertaine.

OpenAI fait dj l’objet de nombreuses poursuites judiciaires et d’un examen rglementaire concernant la manire dont elle recueille les donnes d’entranement, qui semble impliquer la rcupration de sites web et de services en ligne ( l’insu ou sans l’autorisation des sites ou des utilisateurs) et mme de livres et d’autres documents non publics.

Cette question dmontre galement que les techniques d’alignement actuelles d’OpenAI n’liminent pas la possibilit d’une vulnrabilit ChatGPT impliquant la mmorisation. D’autres textes publis dans le rapport indiquent que les donnes d’entranement contiennent des morceaux du site web de CNN, du code de Stack Overflow, des passages de divers blogs WordPress et du site web d’un vendeur d’quipement de casino, parmi d’autres lments d’information.

L’exposition des donnes d’entranement dans ChatGPT et d’autres plateformes d’IA gnrative soulve d’importantes proccupations en matire de confidentialit et de scurit. Cette situation souligne la ncessit de protocoles de traitement et de manipulation des donnes plus stricts dans le dveloppement de l’IA, en particulier en ce qui concerne l’utilisation d’informations sensibles et personnelles. Elle souligne aussi l’importance de la transparence dans le dveloppement de l’IA et les risques potentiels associs l’utilisation de donnes grande chelle. Il est essentiel de relever ces dfis pour maintenir la confiance des utilisateurs et garantir une utilisation responsable des technologies de l’IA.

Sources : Johann Rehberger’s blog post, Google DeepMind and a group of universities

Et vous ?

Quel est votre avis sur le sujet ?