La mthode « Crescendo » permet de jailbreaker l’IA de type LLM, en utilisant des invites en apparence inoffensives Afin de produire des rsultats qui seraient normalement filtrs et refuss

Microsoft a dcouvert une nouvelle mthode pour jailbreaker les outils d’intelligence artificielle (IA) de type grand modle de langage (LLM). La mthode « Crescendo » se sert d’une srie d’invites en apparence inoffensives pour produire un rsultat qui serait normalement filtr et refus. Microsoft partage galement des mthodes de protection contre ce type d’attaque.

Un grand modle de langage (LLM) est un modle de langage remarquable pour sa capacit raliser une gnration de langage usage gnral et d’autres tches de traitement du langage naturel telles que la classification. Les LLM acquirent ces capacits en apprenant des relations statistiques partir de documents textuels au cours d’un processus d’apprentissage auto-supervis et semi-supervis forte intensit de calcul. Les LLM peuvent tre utiliss pour la gnration de texte, une forme d’IA gnrative, en prenant un texte en entre et en prdisant de manire rpte le prochain mot ou token.

Microsoft a dcouvert une nouvelle mthode pour jailbreaker les outils d’intelligence artificielle (IA) de type grand modle de langage (LLM) et a fait part de ses efforts continus pour amliorer la sret et la scurit des LLM. Microsoft a rvl pour la premire fois la mthode de piratage « Crescendo » du LLM dans un article publi le 2 avril, qui dcrit comment un pirate peut envoyer une srie d’invites apparemment anodines pour amener progressivement un chatbot, tel que ChatGPT d’OpenAI, Gemini de Google, LlaMA de Meta ou Claude d’Anthropic, produire un rsultat qui serait normalement filtr et refus par le modle LLM. Par exemple, au lieu de demander au chatbot comment fabriquer un cocktail Molotov, l’attaquant pourrait d’abord poser des questions sur l’histoire des cocktails Molotov, puis, en se rfrant aux rsultats prcdents du LLM, enchaner avec des questions sur la faon dont ils ont t fabriqus dans le pass.

Les chercheurs de Microsoft ont indiqu qu’une attaque russie pouvait gnralement tre ralise en une chane de moins de 10 tours d’interaction et que certaines versions de l’attaque avaient un taux de russite de 100 % par rapport aux modles tests. Par exemple, lorsque l’attaque est automatise l’aide d’une mthode que les chercheurs ont appele « Crescendomation », qui s’appuie sur un autre LLM pour gnrer et affiner les invites de jailbreak, elle a atteint un taux de russite de 100 % en convainquant GPT-3.5, GPT-4, Gemini-Pro et LLaMA-2 70b de produire des informations errones lies aux lections et des diatribes contenant des blasphmes. Microsoft a signal les vulnrabilits de Crescendo aux fournisseurs de LLM concerns et a expliqu comment il a amlior ses dfenses LLM contre Crescendo et d’autres attaques en utilisant de nouveaux outils, notamment ses fonctions « AI Watchdog » et « AI Spotlight« .

Comment Microsoft dcouvre et attnue les attaques volutives contre les garde-fous de l’IA ?

Microsoft :
Alors que l’IA gnrative commence s’intgrer dans la vie quotidienne, il est important de comprendre les dommages potentiels qui peuvent dcouler de son utilisation. Notre engagement continu faire progresser l’IA sre, scurise et digne de confiance comprend la transparence sur les capacits et les limites des grands modles de langage (LLM). Nous donnons la priorit la recherche sur les risques socitaux et la construction d’une IA sre et scurise, et nous nous concentrons sur le dveloppement et le dploiement de systmes d’IA pour le bien public.

Nous nous sommes galement engags identifier et attnuer les risques et partager des informations sur les nouvelles menaces potentielles. Par exemple, au dbut de l’anne, Microsoft a partag les principes qui sous-tendent sa politique et ses actions visant bloquer les menaces persistantes avances (APT), les manipulateurs persistants avancs (APM) et les syndicats de cybercriminels que nous suivons et qui utilisent nos outils d’IA et nos API.

Potentiel de manipulation malveillante des LLM

L’une des principales proccupations lies l’IA est son utilisation potentielle des fins malveillantes. Pour viter cela, les systmes d’IA de Microsoft sont construits avec plusieurs couches de dfenses dans leur architecture. L’un des objectifs de ces dfenses est de limiter les actions du LLM, afin de s’aligner sur les valeurs et les objectifs humains des dveloppeurs.

Mais il arrive que des acteurs malveillants tentent de contourner ces protections dans le but de raliser des actions non autorises, ce qui peut donner lieu ce que l’on appelle un « jailbreak ». Les consquences peuvent aller d’actions non approuves mais moins nocives – comme faire parler l’interface de l’IA comme un pirate – des actions trs graves, comme inciter l’IA fournir des instructions dtailles sur la manire de raliser des activits illgales. C’est pourquoi de nombreux efforts sont dploys pour renforcer les dfenses des jailbreaks afin de protger les applications intgres l’IA contre ces comportements.

Si les applications intgres l’IA peuvent tre attaques comme des logiciels traditionnels (avec des mthodes telles que les dbordements de mmoire tampon et les scripts intersites), elles peuvent galement tre vulnrables des attaques plus spcialises qui exploitent leurs caractristiques uniques, notamment la manipulation ou l’injection d’instructions malveillantes en s’adressant au modle d’IA par l’intermdiaire de l’invite de l’utilisateur. On peut rpartir ces risques en deux groupes de techniques d’attaque :

Invitations malveillantes : Lorsque l’utilisateur tente de contourner les systmes de scurit afin d’atteindre un objectif dangereux. On parle galement d’attaque par injection d’invite utilisateur/directe ou UPIA.
Contenu empoisonn : Lorsqu’un utilisateur bien intentionn demande au systme d’IA de traiter un document apparemment inoffensif (comme le rsum d’un courriel) qui contient un contenu cr par un tiers malveillant dans le but d’exploiter une faille du systme d’IA. galement connue sous le nom d’attaque par injection croise/indirecte, ou XPIA.

Microsoft partage deux des avances de son quipe dans ce domaine : la dcouverte d’une technique puissante pour neutraliser le contenu empoisonn, et la dcouverte d’une nouvelle famille d’attaques promptes malveillantes, et comment se dfendre contre elles avec plusieurs couches d’attnuation.

Neutralisation du contenu empoisonn (Spotlighting)

Les attaques par injection d’invites par le biais de contenus empoisonns constituent un risque majeur pour la scurit, car un attaquant qui procde ainsi peut potentiellement donner des ordres au systme d’IA comme s’il tait l’utilisateur. Par exemple, un courriel malveillant pourrait contenir une charge utile qui, une fois rsume, amnerait le systme rechercher dans la messagerie de l’utilisateur ( l’aide de ses informations d’identification) d’autres courriels portant sur des sujets sensibles – par exemple, « Rinitialisation du mot de passe » – et exfiltrer le contenu de ces courriels vers l’attaquant en rcuprant une image partir d’une URL contrle par l’attaquant. De telles capacits prsentant un intrt vident pour un large ventail d’adversaires, il est essentiel de s’en protger pour que tout service d’IA puisse fonctionner en toute scurit.

Microsoft :
Nos experts ont dvelopp une famille de techniques appeles Spotlighting qui rduisent le taux de russite de ces attaques de plus de 20 % moins du seuil de dtection, avec un effet minimal sur les performances globales de l’IA.

Spotlighting (galement connu sous le nom de marquage de donnes) pour rendre les donnes externes clairement sparables des instructions par le LLM, avec diffrentes mthodes de marquage offrant une gamme de compromis de qualit et de robustesse qui dpendent du modle utilis.

Attnuer le risque de menaces multitours (Crescendo)

Microsoft :
Nos chercheurs ont dcouvert une nouvelle gnralisation des attaques de jailbreak, que nous appelons Crescendo. Cette attaque peut tre dcrite comme un jailbreak LLM multitour, et nous avons constat qu’elle peut atteindre un large ventail d’objectifs malveillants contre les LLM les plus connus utiliss aujourd’hui. Crescendo peut galement contourner de nombreux filtres de scurit de contenu existants, s’ils ne sont pas traits de manire approprie.

Ds que nous avons dcouvert cette technique de jailbreak, nous avons rapidement partag nos conclusions techniques avec d’autres fournisseurs d’IA afin qu’ils puissent dterminer s’ils sont concerns et prendre les mesures qu’ils jugent appropries. Les fournisseurs que nous avons contacts sont conscients de l’impact potentiel des attaques Crescendo et se sont concentrs sur la protection de leurs plateformes respectives, conformment leurs propres implmentations et protections de l’IA.

Au fond, Crescendo incite les LLM gnrer des contenus malveillants en exploitant leurs propres rponses. En posant des questions ou des invites soigneusement conues qui conduisent progressivement le LLM vers un rsultat souhait, plutt que de lui demander l’objectif en une seule fois, il est possible de contourner les garde-fous et les filtres, ce qui peut gnralement tre ralis en moins de 10 tours d’interaction.

Bien que les attaques de Crescendo aient t une dcouverte surprenante, il est important de noter que ces attaques ne constituent pas une menace directe pour la vie prive des utilisateurs qui interagissent avec le systme d’IA cibl par Crescendo, ni pour la scurit du systme d’IA lui-mme. Ce que les attaques de Crescendo contournent et mettent en chec, c’est le filtrage de contenu qui rgule le LLM et qui permet d’empcher une interface d’IA de se comporter de manire indsirable.

Microsoft s’engage rechercher et traiter en permanence ces types d’attaques, ainsi que d’autres, afin de contribuer maintenir la scurit du fonctionnement et des performances des systmes d’IA pour tous. Dans le cas de Crescendo, ils ont effectu des mises jour logicielles de la technologie LLM qui sous-tend les offres d’IA de Microsoft, y compris les assistants d’IA Copilot, afin d’attnuer l’impact de ce contournement du garde-fou de l’IA plusieurs tours.

Microsoft :
Il est important de noter qu’au fur et mesure que des chercheurs internes et externes Microsoft se concentreront invitablement sur la dcouverte et la publication de techniques de contournement de l’IA, Microsoft continuera prendre des mesures pour mettre jour les protections dans ses produits, en tant que contributeur majeur la recherche sur la scurit de l’IA, la chasse aux bogues et la collaboration.

Pour comprendre comment Microsoft a rsolu le problme, il faut examiner comment ils ont attnu une attaque par invite malveillante standard (tape unique, galement connue sous le nom de « one-shot jailbreak ») :

Filtrage de l’invite standard : Dtecter et rejeter les entres qui contiennent des intentions nuisibles ou malveillantes, susceptibles de contourner les garde-fous (provoquant une attaque de type jailbreak).
Mtaprompte du systme : Ingnierie d’invite dans le systme pour expliquer clairement au LLM comment se comporter et fournir des garde-fous supplmentaires.

Microsoft :
La dfense contre Crescendo a d’abord t confronte des problmes pratiques. Dans un premier temps, nous n’avons pas pu dtecter une « intention de jailbreak » avec le filtrage standard des invites, car chaque invite individuelle n’est pas, en soi, une menace, et les mots-cls seuls ne suffisent pas dtecter ce type de prjudice. Ce n’est que lorsqu’ils sont combins que le modle de menace est clair.

En outre, le LLM lui-mme ne voit rien qui sorte de l’ordinaire, puisque chaque tape successive est bien ancre dans ce qu’elle a gnr l’tape prcdente, avec juste une petite demande supplmentaire ; cela limine bon nombre des signaux les plus importants qui normalement seraient utiliss pour prvenir ce type d’attaque.

Pour rsoudre les problmes uniques des jailbreaks LLM multitours, Microsoft a cr des couches supplmentaires d’attnuation en plus des prcdentes mentionnes ci-dessus :

Filtre d’invite multitours : Ils ont adapt les filtres d’entre pour qu’ils tiennent compte de l’ensemble de la conversation prcdente, et pas seulement de l’interaction immdiate. Ils ont constat que le fait de transmettre cette fentre contextuelle plus large aux dtecteurs d’intentions malveillantes existants, sans amliorer les dtecteurs du tout, rduisait de manire significative l’efficacit de Crescendo.
AI Watchdog : Dploiement d’un systme de dtection pilot par l’IA et entran sur des exemples contradictoires, comme un chien renifleur l’aroport la recherche d’articles de contrebande dans les bagages. En tant que systme d’IA distinct, il vite d’tre influenc par des instructions malveillantes. Microsoft Azure AI Content Safety est un exemple de cette approche.
Recherche avance : Microsoft investit dans la recherche de mesures d’attnuation plus complexes, issues d’une meilleure comprhension de la manire dont les LLM traitent les demandes et s’garent. Ces mesures peuvent protger non seulement contre Crescendo, mais aussi contre la grande famille des attaques d’ingnierie sociale contre les LLM.

Microsoft aide protger les systmes d’IA

L’IA a le potentiel d’apporter de nombreux avantages nos vies. Mais il est important d’tre conscient des nouveaux vecteurs d’attaque et de prendre des mesures pour y remdier. En travaillant ensemble et en partageant les dcouvertes de vulnrabilits, on peut continuer amliorer la sret et la scurit des systmes d’IA. Avec les bonnes protections de produits en place, on peut tre prudemment optimistes quant l’avenir de l’IA gnrative, et embrasser les possibilits en toute scurit, avec confiance.

Pour permettre aux professionnels de la scurit et aux ingnieurs en apprentissage automatique de dtecter de manire proactive les risques dans leurs propres systmes d’IA gnrative, Microsoft a publi un cadre d’automatisation ouvert, PyRIT (Python Risk Identification Toolkit for generative AI).

Si vous dcouvrez de nouvelles vulnrabilits dans une plateforme d’IA, Microsoft vous encourage suivre les pratiques de divulgation responsable du propritaire de la plateforme.

Source : « Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack » (Microsoft)

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que les mthodes de protection de Microsoft sont crdibles ou pertinentes ?