Le phnomne des jailbreaks des grands modles de langage (LLM) illustre les dfis croissants lis la gestion des systmes d’intelligence artificielle, en particulier lorsqu’ils sont confronts des tentatives d’exploitation. L’une des mthodes rcentes, baptise Bad Likert Judge , a mis en lumire une approche sophistique permettant de contourner les garde-fous de scurit intgrs dans ces modles. Les chercheurs de l’unit 42 de Palo Alto Networks ont russi exploiter la capacit des LLM valuer et classifier le contenu nuisible l’aide de l’chelle de Likert, qui value le degr de dangerosit d’un message. Cette technique permet aux attaquants de pousser les modles gnrer des rponses malveillantes, telles que des informations sur des logiciels malveillants, des comportements illgaux ou des propos de harclement.
Cette dcouverte soulve plusieurs problmatiques critiques. Tout d’abord, elle expose l’cart entre la manire dont les modles sont conus pour interagir avec l’information et la ralit de leur manipulation par des utilisateurs malveillants. Le systme de scurit des LLM, souvent peru comme un rempart efficace contre les contenus nuisibles, semble vulnrable face des techniques d’attaque qui exploitent des mcanismes internes comme l’valuation du contenu. De plus, la capacit d’un LLM fournir des rponses potentiellement dangereuses, mme aprs un processus de filtrage, met en vidence les limites des protections actuelles.
Les discussions sur les biais et la manipulation des systmes d’IA, comme celles prsentes dans les commentaires prcdents, illustrent les tensions entre la cration de modles scuriss et la ncessit d’un contrle plus rigide des informations gnres. Alors que des garde-fous sont mis en place pour empcher la production de contenus inappropris, la frontire entre ce qui est acceptable et ce qui ne l’est pas reste floue, et les utilisateurs trouvent des moyens de contourner ces restrictions. Le dbat sur la nature de l’intelligence artificielle elle-mme un outil purement dterministe ou un systme capable d’merger en comportements imprvisibles s’intensifie mesure que des failles sont dcouvertes.
Ainsi, les rsultats obtenus par l’attaque Bad Likert Judge renforcent la ncessit de repenser les architectures de scurit des LLM, en tenant compte non seulement de la capacit filtrer le contenu mais aussi de la manire dont ces systmes peuvent tre dtourns par des techniques innovantes de manipulation. Cela souligne un dfi majeur pour l’avenir des systmes d’IA : comment concilier scurit, thique et libert de gnrer des rponses tout en limitant les risques de mauvais usages.
Une mthode de jailbreak qui dvoile les failles des modles de langage
La mthode de jailbreak Bad Likert Judge , dveloppe et teste par l’unit 42 de Palo Alto Networks, permet d’augmenter de plus de 60 % le taux de russite des tentatives de jailbreak, par rapport aux attaques directes en une seule tape. Cette approche repose sur l’chelle de Likert, gnralement utilise pour mesurer le degr d’accord ou de dsaccord avec une affirmation dans un questionnaire. Par exemple, sur une chelle de 1 5, un score de 1 indique un dsaccord total, tandis qu’un score de 5 indique un accord total.
Dans le cadre des exprimentations, les chercheurs ont demand aux modles de langage (LLM) d’utiliser cette chelle pour valuer la nocivit de certains contenus. Ainsi, ils ont attribu un score de 1 pour des contenus sans information malveillante et un score de 2 pour des contenus dtaillant la cration de logiciels malveillants. Aprs cette valuation, les chercheurs ont demand aux modles de gnrer des exemples correspondant chaque score, en insistant pour que l’exemple attribu au score 2 inclut des dtails prcis, souvent entranant la gnration de contenu prjudiciable.
Les chercheurs ont observ qu’une ou deux tapes supplmentaires dans le processus permettaient de gnrer encore plus de contenus nuisibles, mesure que le modle dveloppait davantage les exemples fournis. Sur un total de 1 440 tests raliss avec six modles diffrents, la mthode Bad Likert Judge a atteint un taux de russite moyen de 71,6 %. Le modle ayant obtenu les meilleurs rsultats avec un taux de 87,6 % tait le modle 6, tandis que le modle 5, avec un taux de 36,9 %, a t le moins performant.
Les chercheurs ont galement analys l’efficacit de l’attaque dans diverses catgories de contenus nuisibles, telles que la haine, le harclement, l’automutilation, la promotion d’activits illgales et la gnration de logiciels malveillants. Le contenu li au harclement a t particulirement facile produire, avec un taux de russite de base souvent suprieur celui des autres catgories. Cependant, en ce qui concerne les fuites d’informations systme, Bad Likert Judge a montr des rsultats mitigs, except pour le modle 1, o le taux de russite est pass de 0 % 100 %.
Pour contrer ces violations, il est recommand d’implmenter des filtres de contenu qui valuent la fois les entres et les sorties des LLM, afin dempcher la gnration de contenu nuisible. Lorsqu’un modle quip de ces filtres a t test, le taux de russite de l’attaque a chut 89,2 %. Par ailleurs, l’anne prcdente, un autre jailbreak en plusieurs tapes, appel Deceptive Delight , avait dj montr un taux de russite de 65 % aprs seulement trois tapes, en demandant aux LLM de gnrer des rcits mlant contenus bnins et nuisibles.
Pourquoi les techniques de jailbreak fonctionnent-elles, et pourquoi sont-elles si efficaces ?
Les attaques tour unique exploitent souvent les limites informatiques des modles de langage. Certaines invites exigent du modle qu’il effectue des tches forte intensit de calcul, telles que la gnration d’un contenu de longue dure ou l’excution d’un raisonnement complexe. Ces tches peuvent solliciter les ressources du modle, ce qui peut l’amener ngliger ou contourner certains garde-fous.
Les attaques multitours exploitent gnralement la fentre contextuelle et le mcanisme d’attention du modle de langage pour contourner les garde-fous. En laborant stratgiquement une srie d’invites, un attaquant peut manipuler la comprhension du contexte de la conversation par le modle. Il peut ensuite l’orienter progressivement vers des rponses dangereuses ou inappropries que les garde-fous du modle empcheraient autrement.
Les LLM peuvent tre vulnrables aux attaques de type jailbreaking en raison de leur longue fentre contextuelle. Ce terme fait rfrence la quantit maximale de texte (tokens) qu’un modle LLM peut mmoriser un moment donn lorsqu’il gnre des rponses. Anthropic a rcemment dcouvert un bon exemple de cette stratgie, la stratgie d’attaque many-shot . Cette stratgie envoie simplement au LLM plusieurs sries d’invites prcdant la question nuisible finale. Malgr sa simplicit, cette approche s’est avre trs efficace pour contourner les garde-fous internes du LLM.
En outre, le mcanisme d’attention des modles de langage leur permet de se concentrer sur des parties spcifiques de l’entre lors de la gnration d’une rponse. Cependant, les adversaires peuvent abuser de cette capacit pour distraire les LLM et les amener se concentrer sur les parties bnignes pendant qu’ils intgrent des invites dangereuses. Par exemple, l’attaque Deceptive Delight et l’attaque Crescendo, rcemment dcouvertes, utilisent cette mthode.
Une mthode de jailbreak qui dfie les garde-fous des modles de langage
La technique de jailbreak en plusieurs tapes « Bad Likert Judge » et ses tests mens par l’unit 42 de Palo Alto Networks rvlent des enjeux cruciaux concernant la scurit et la rgulation des modles de langage. Cette mthode, qui amliore les taux de russite des attaques de jailbreak par rapport aux tentatives directes, soulve des questions pertinentes sur l’efficacit des filtres et des garde-fous qui sont censs empcher la gnration de contenu prjudiciable. Bien que ces tentatives de contournement aient montr un taux de russite impressionnant dans certains cas, elles mettent galement en lumire les failles inhrentes aux systmes de scurit actuels, ainsi que la facilit avec laquelle des mthodes peuvent tre labores pour exploiter ces vulnrabilits.
Tout d’abord, le concept mme du « Bad Likert Judge » repose sur l’utilisation d’un modle probabiliste pour valuer la nocivit d’un contenu, ce qui laisse ouverte la possibilit de manipuler les rsultats. En demandant au modle d’attribuer des scores diffrents types de contenus et de gnrer des exemples, les chercheurs exploitent la flexibilit des systmes d’IA actuels pour les amener produire des rponses qui chappent aux protections. Ce processus met en vidence les limitations des modles de langage, qui bien qu’ayant la capacit de comprendre le contexte et de produire des rsultats dtaills, peuvent galement tre amens gnrer des contenus nuisibles ou malveillants si le cadre dans lequel ils oprent est manipul.
L’un des points les plus proccupants soulevs par cette recherche est la facilit avec laquelle les modles de langage peuvent tre manipuls pour gnrer des contenus nuisibles, notamment dans les domaines du harclement, de la haine, ou de la promotion de logiciels malveillants. En observant que les « jailbreaks » ont un taux de succs particulirement lev dans la gnration de contenu li au harclement, il devient vident que, mme avec des garde-fous en place, ces systmes peuvent facilement tre contourns. Cette situation soulve des interrogations sur la capacit des entreprises rguler efficacement les comportements des IA et mettre en place des filtres suffisamment robustes pour prvenir la gnration de contenu nuisible. En effet, les chercheurs ont constat que les filtres de contenu appliqus rduisaient le taux de russite des attaques de 89,2 % en moyenne, ce qui suggre qu’il existe des solutions pour limiter les risques, mais ces solutions ne sont pas encore suffisantes pour prvenir totalement les abus.
Le problme sous-jacent rside dans le caractre dterministe des systmes d’IA. Bien que les modles de langage semblent souvent produire des rsultats variables, cette variabilit est en ralit dtermine par des algorithmes et des probabilits bien dfinis. Les commentaires de certains utilisateurs sur la nature « non-dterministe » des IA rvlent une mauvaise comprhension de la manire dont ces systmes fonctionnent. Les IA modernes reposent sur des modles statistiques et probabilistes qui, en ralit, restent fondamentalement dterministes. Cependant, cette complexit rend difficile la prdiction de chaque rponse, surtout lorsque l’utilisateur interagit avec un systme sans comprendre l’intgralit du processus de gnration des rponses. Ce dcalage entre l’utilisateur et le concepteur du systme cre un terrain propice la manipulation et l’exploitation des failles.
En fin de compte, la question de l’thique et de la scurit des IA dpasse la simple question de la contournabilit des filtres. Il s’agit de savoir comment les concepteurs et les rgulateurs peuvent crer des systmes suffisamment robustes pour prvenir non seulement les attaques de jailbreak, mais aussi les biais et incohrences inhrents ces modles. Si les IA ne sont pas capables de se conformer pleinement des valeurs humaines claires et cohrentes, elles risquent de produire des rsultats dangereux, mme lorsque des mesures de scurit sont en place. Il est donc essentiel que les chercheurs, les dveloppeurs et les rgulateurs collaborent pour dvelopper des solutions qui non seulement attnuent les risques immdiats, mais qui tablissent aussi un cadre thique solide pour lutilisation des IA dans un futur proche.
Source : Palo Alto Networks
Et vous ?
Quel est votre avis sur le sujet ?
Dans quelle mesure les modles de langage actuels peuvent-ils rellement tre considrs comme scuriss face aux attaques sophistiques comme celle du Bad Likert Judge ?
Les mcanismes de filtrage et de classification des contenus nuisibles dans les LLM sont-ils adapts la complexit croissante des tentatives de manipulation ?
Voir aussi :