Un chercheur en scurit dmontre qu’il est possible d’exploiter la fonction Mmoire de ChatGPT pour implanter de faux souvenirs dans l’outil d’OpenAI et voler les donnes des utilisateurs perptuit

OpenAI s'engage remdier la vulnrabilit de fuite de donnes dans ChatGPT, Tandis que DeepMind et des universits mettent en lumire une faille exposant des donnes d'entranement



Johann Rehberger, un chercheur en scurit, a dmontr quil tait possible dutiliser une technique appele injection de prompt indirect pour implanter des souvenirs malveillants dans ChatGPT. Cette mthode consiste insrer des instructions dans des contenus non fiables, tels que des emails ou des documents, que ChatGPT interprte et stocke comme des souvenirs authentiques. Par exemple, il a russi convaincre ChatGPT quun utilisateur avait 102 ans et vivait dans un monde fictif. Une fois ces faux souvenirs implants, toutes les interactions futures de lutilisateur avec ChatGPT sont influences par ces informations errones.

Pire encore, Rehberger a prouv quil pouvait exfiltrer toutes les donnes saisies par lutilisateur en continu, en utilisant un serveur distant pour collecter ces informations.

Lorsque le chercheur en scurit Johann Rehberger a rcemment signal une vulnrabilit dans ChatGPT qui permettait aux attaquants de stocker de fausses informations et des instructions malveillantes dans les paramtres de la mmoire long terme d’un utilisateur, OpenAI a sommairement clos l’enqute, qualifiant la faille de problme de sret (safety issue), et non, techniquement parlant, de problme de scurit (security issue).

La sret concerne les menaces non intentionnelles telles que les erreurs humaines, les dfaillances techniques et les accidents. La scurit concerne uniquement les menaces intentionnelles comme l’espionnage, la cybercriminalit ou le terrorisme.

Rehberger a donc fait ce que font tous les bons chercheurs : il a cr un exploit de dmonstration qui utilise la vulnrabilit pour exfiltrer toutes les donnes de l’utilisateur perptuit. Les ingnieurs d’OpenAI en ont pris note et ont publi un correctif partiel au dbut du mois.

La dcouverte de la faille

La vulnrabilit concerne la mmoire des conversations long terme, une fonctionnalit qu’OpenAI a commenc tester en fvrier et qu’elle a rendue disponible plus grande chelle en septembre. La mmoire avec ChatGPT stocke les informations des conversations prcdentes et les utilise comme contexte dans toutes les conversations futures. Ainsi, le LLM peut connatre des dtails tels que l’ge, le sexe, les croyances philosophiques d’un utilisateur et peu prs n’importe quoi d’autre, de sorte que ces dtails n’ont pas besoin d’tre saisis au cours de chaque conversation. L’objectif est de personnaliser les interactions futures.

Trois mois aprs le dploiement, Rehberger a dcouvert que des souvenirs pouvaient tre crs et stocks de manire permanente grce l’injection indirecte d’invites, un exploit d’IA qui permet un LLM de suivre les instructions d’un contenu non fiable tel que des courriels, des articles de blog ou des documents. Le chercheur a dmontr comment il pouvait faire croire ChatGPT qu’un utilisateur cibl avait 102 ans, vivait dans la Matrice et insistait sur le fait que la Terre tait plate, et que le LLM intgrerait ces informations pour orienter toutes les conversations futures. Ces faux souvenirs pourraient tre crs en stockant des fichiers dans Google Drive ou Microsoft OneDrive, en tlchargeant des images ou en naviguant sur un site comme Bing – autant d’lments qui pourraient tre crs par un attaquant malveillant.

Le principe de linjection de souvenirs

En mai, Rehberger a signal en priv cette dcouverte OpenAI. Le mme mois, l’entreprise a ferm le ticket de rapport. Un mois plus tard, le chercheur a soumis une nouvelle dclaration. Cette fois, il a inclus un PoC qui fait que l’application ChatGPT pour macOS envoie une copie verbatim de toutes les entres de l’utilisateur et de la sortie ChatGPT un serveur de son choix. Tout ce qu’une cible devait faire tait de demander au LLM d’afficher un lien web qui hbergeait une image malveillante. Ds lors, toutes les entres et sorties de ChatGPT taient envoyes vers le site web de l’attaquant.

Ce qui est vraiment intressant, c’est que la mmoire est dsormais persistante , a dclar Rehberger dans la vido de dmonstration ci-dessus. L’injection d’invite a insr une mmoire dans le stockage long terme de ChatGPT. Lorsque vous entamez une nouvelle conversation, l’exfiltration des donnes se poursuit .

L’attaque n’est pas possible via l’interface web de ChatGPT, grce une API qu’OpenAI a dploye l’anne dernire.

Bien qu’OpenAI ait introduit un correctif qui empche l’utilisation abusive des mmoires comme vecteur d’exfiltration, le chercheur a dclar que le contenu non fiable peut toujours effectuer des injections rapides qui amnent l’outil de mmoire stocker des informations long terme mises en place par un attaquant malveillant.

Les utilisateurs de LLM qui souhaitent prvenir cette forme d’attaque doivent tre trs attentifs, pendant les sessions, aux messages indiquant qu’une nouvelle mmoire a t ajoute. Ils doivent galement examiner rgulirement les mmoires stockes afin de dtecter tout lment susceptible d’avoir t introduit par des sources non fiables. OpenAI fournit ici des conseils pour la gestion de l’outil de mmoire et des mmoires spcifiques qui y sont stockes.

Le chercheur avait dj signal une vulnrabilit de fuite de donnes dans ChatGPT qu’OpenAI a mis des mois avant de corriger partiellement

Dans un billet de blog publi le 20 dcembre, Johann Rehberger a partag ses constats suite une dmonstration de vol de donnes GPT avec une victime consentante. OpenAI semble avoir mis en place des mesures d’attnuation pour une vulnrabilit bien connue d’exfiltration de donnes dans ChatGPT. Les attaquants peuvent utiliser le rendu de l’image markdown lors d’attaques par injection rapide pour envoyer des donnes des serveurs tiers sans le consentement de l’utilisateur. La correction n’est pas parfaite, mais c’est un pas dans la bonne direction .

Il a mentionn que ChatGPT est toujours vulnrable l’exfiltration de donnes via l’injection d’image markdown, et mon serveur recevait les dtails de la conversation .

La vulnrabilit d’exfiltration de donnes avait t signale pour la premire fois OpenAI au dbut du mois d’avril 2023, mais aucune correction n’avait t apporte. Fin dcembre, il semblait que certaines mesures d’attnuation avaient finalement t mises en place. Cependant, des inquitudes persistaient quant la possibilit de fuites de donnes, malgr cette amlioration : il tait toujours possible d’envoyer des requtes des domaines arbitraires, et donc d’envoyer des donnes l’extrieur.

Citation Envoy par Johann Rehberger

Une solution imparfaite – Des proccupations persistantes

Comme nous l’avons dit, ce n’est pas une solution parfaite.

Des fuites sont toujours possibles

Il est encore possible d’envoyer des requtes des domaines arbitraires, et donc d’envoyer des donnes l’extrieur. Des astuces videntes comme la division du texte en caractres individuels et la cration d’une requte par caractre, par exemple, ont montr un certain succs (limit) premire vue. Il n’y a que de petites fuites de cette manire, c’est lent et plus perceptible pour un utilisateur et aussi pour OpenAI si les logs de l’API url_safe sont examins et surveills.

Bien qu’il a salu l’attnuation comme tant un progrs, il a tout de mme propos des suggestions OpenAI pour renforcer davantage la scurit, notamment en limitant le nombre d’images rendues par rponse et en clarifiant les critres de validation des URL. En dpit de ces rserves, l’auteur se flicite de l’attention porte aux vulnrabilits de ChatGPT par OpenAI.

Google DeepMind et d’autres chercheurs en scurit ont dcouvert une vulnrabilit dans ChatGPT

La vulnrabilit prsent par Rehberger nest pas un cas isol. Des chercheurs en scurit ont dcouvert une vulnrabilit ChatGPT qui expose des donnes d’entranement, dclenches uniquement en demandant au chatbot de rpter un mot particulier l’infini.

Les chercheurs ont dcouvert que lorsqu’on demande ChatGPT de rpter ternellement un mot comme pome ou partie , il le fait pendant quelques centaines de rptitions. Ensuite, il s’effondre et se met afficher un ensemble de mots qui s’apparente du charabia premire vue, mais ce texte alatoire contient parfois des donnes identifiables telles que des signatures d’adresses lectroniques et des informations de contact. L’incident a soulev des questions non seulement sur la scurit du chatbot, mais aussi sur l’origine exacte de toutes ces informations.

Les chercheurs ont affirm que les tests de la vulnrabilit ChatGPT ont permis d’obtenir des informations personnellement identifiables de dizaines de personnes, telles que des identifiants d’utilisateur et des adresses bitcoin. Des informations explicites provenant de sites de rencontres ont galement pu tre extraites des donnes d’entranement si un mot apparent tait utilis comme invite.

Les chercheurs ont galement trouv des informations protges par le droit d’auteur ou non publiques sous la forme de fragments de code de programmation et de passages entiers de livres ou de pomes. Les chercheurs ont dclar avoir dpens 200 USD au total en requtes et avoir ainsi extrait environ 10 000 de ces blocs de donnes d’entranement mmorises mot mot.

Conclusion

Cette dcouverte met en lumire les dfis de scurit auxquels sont confrontes les technologies dIA avances. Elle souligne limportance de la vigilance et de la ractivit face aux vulnrabilits potentielles. Alors que lIA continue de se dvelopper, il est crucial de renforcer les mesures de scurit pour protger les utilisateurs contre de telles menaces.

Sources : Johann Rehberger (1, 2), OpenAI

Et vous ?

Quels sont les risques associs limplantation de faux souvenirs dans les IA ?

Comment les utilisateurs peuvent-ils se protger contre les vulnrabilits des IA ?

Les entreprises devraient-elles tre tenues lgalement responsables des failles de scurit dans leurs produits dIA ?

Quels sont les impacts potentiels sur la vie prive des utilisateurs si de telles failles ne sont pas corriges rapidement ?

Comment les rgulateurs peuvent-ils mieux encadrer lutilisation des IA pour prvenir de telles attaques ?

Pensez-vous que les bnfices des IA justifient les risques de scurit potentiels ? Pourquoi ou pourquoi pas ?

Quelles innovations technologiques pourraient aider renforcer la scurit des systmes dIA ?

Comment les utilisateurs peuvent-ils contribuer la dtection et la correction des failles de scurit dans les IA ?



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.