les attaques contre les LLM ne prennent que 42 secondes en moyenne, et 20 % des jailbreaks russissent, selon Pillar Security

LinkedIn est la marque la plus usurpe par les cybercriminels et reprsente 52 % de toutes les attaques de phishing mondiales Il s'agit d'une hausse de 44 % par rapport au trimestre prcdent



Les attaques visant les grands modles de langage (LLM) sont la fois frquentes et rapides, avec une dure moyenne de seulement 42 secondes. Ces attaques russissent dans 20 % des cas et exposent des donnes sensibles dans 90 % des situations. Selon le rapport State of Attacks on GenAI, publi rcemment, qui repose sur des donnes tlmtriques et des exemples concrets collects auprs de plus de 2 000 applications d’IA, les chatbots de service client sont les cibles les plus vises. Les attaques incluent des techniques comme les jailbreaks (qui contournent les filtres de scurit) et les injections d’invite (qui manipulent le comportement des modles), mettant en lumire les vulnrabilits des LLM. Face l’expansion rapide de la surface d’attaque de l’IA gnrative, les chercheurs alertent sur laugmentation des menaces. Une question cruciale se pose : avec la gnralisation de lIA, les stratgies de scurit actuelles seront-elles capables de protger contre ces nouvelles vulnrabilits ?

L’IA gnrative ouvre de vastes perspectives en matire de productivit et d’innovation, offrant des opportunits uniques. Cependant, mesure que les modles et cas d’utilisation voluent un rythme rapide, les responsables de la scurit et de l’IA peinent trouver un quilibre entre les avantages de ces technologies et les risques qu’elles gnrent, notamment en ce qui concerne les vulnrabilits de scurit. Bien que de nombreuses tudes thoriques aient t menes, l’analyse des attaques relles et des risques concrets demeure insuffisante. Le rapport de Pillar Security pallie cette lacune en offrant une analyse dtaille des menaces actuelles, dvoilant ainsi un aperu indit du paysage des risques lis l’IA. Cette tude repose sur des donnes tlmtriques collectes lors de lanalyse de plus de 2 000 applications relles alimentes par des LLM au cours des trois derniers mois, mettant en vidence plusieurs points cls.

Taux lev de succs des attaques

  • Exposition des donnes : 90 % des attaques russies ont entran la fuite de donnes sensibles ;
  • Contournement des protections : 20 % des tentatives de jailbreak ont russi franchir les filtres de scurit des applications GenAI ;
  • Excution rapide : En moyenne, une attaque prend seulement 42 secondes, soulignant la rapidit avec laquelle les vulnrabilits peuvent tre exploites ;
  • Interaction minimale : Les attaquants nont besoin en moyenne que de cinq interactions pour mener bien une attaque.

Les trois techniques de jailbreak les plus courantes

  • Ignorer les instructions prcdentes : Les attaquants ordonnent l’IA d’ignorer ses directives initiales, ce qui permet de gnrer des contenus nuisibles et de violer des rgles thiques ;
  • Attaque la force brute : Des demandes insistantes poussent l’IA se conformer, ce qui peut conduire la fuite d’informations sensibles ou des actions non autorises, compromettant la scurit du systme ;
  • Codage Base64 : Les invites malveillantes sont encodes en Base64 pour contourner les filtres de scurit, permettant ainsi lexcution de code malveillant ou lextraction de donnes protges.

Surface d’attaque tendue

Les attaques exploitent des vulnrabilits chaque tape de l’interaction avec les LLM, y compris les invites, les rponses gnres, et les sorties des outils. Cela met en vidence la ncessit dune scurit renforce tout au long du cycle de vie des interactions avec les modles LLM.

Perspectives pour 2025 et risques lis une IA mal scurise

Dici 2025, la prolifration incontrle de technologies dIA sans mesures de scurit adquates pourrait entraner des risques majeurs. Lintgration croissante de lIA par les grandes entreprises technologiques tend rapidement la surface dattaque lchelle mondiale. En parallle, la gnralisation des modles d’IA locaux pourrait compliquer encore davantage la gestion des menaces, en raison du nombre lev de points de terminaison dcentraliss surveiller. Lmergence dagents autonomes, capables dinteragir avec divers environnements et de prendre des dcisions indpendantes, ajoute une nouvelle couche de complexit. Lessor de l’IA gnrative, ladoption des modles locaux et le dveloppement des agents autonomes forment ainsi un paysage de menaces multifacettes qui ncessite une vigilance accrue et une rponse immdiate.

Les chercheurs de Pillar ont observ que les jailbreaks russissent contourner les protections dans 20 % des cas, soulignant lurgence d’adapter les stratgies de scurit face cette menace croissante. Dor Sarig, PDG de Pillar Security, a dclar SC Media que « dans un avenir proche, chaque application sera une application d’IA, ce qui bouleverse profondment notre approche de la scurit ». Les chatbots de service client sont les cibles les plus frquentes, reprsentant 57,6 % des applications analyses. Dautres secteurs comme l’nergie, le conseil ou lingnierie ont galement t viss, tandis que lducation, avec des applications telles que le tutorat intelligent ou lapprentissage personnalis, constitue plus de 30 % des applications GenAI tudies. Les attaques ont prouv leur efficacit dans toutes les langues supportes par les LLM.

Les jailbreaks et injections d’invite lorigine d’attaques rapides et efficaces

Les attaques se divisent en deux catgories principales : les jailbreaks et les injections d’invite. Les jailbreaks visent contourner les garde-fous des LLM en dsactivant ou en modifiant leur comportement, tandis que les injections modifient les instructions donnes au modle pour excuter des actions non autorises. Les jailbreaks prparent souvent le terrain pour que les injections russissent.

La technique de jailbreak la plus utilise est celle qui consiste dire au LLM d ignorer les instructions prcdentes , ce qui permet de contourner ses filtres de scurit. Une autre mthode courante est le « bras fort », o lattaquant utilise des commandes autoritaires, comme « ADMIN OVERRIDE », pour forcer le chatbot obir malgr les protections en place. Le codage base64 est aussi frquemment utilis pour encoder les invites et contourner les filtres de contenu. Les chercheurs de Pillar ont constat que ces attaques prennent en moyenne 42 secondes, avec un maximum de 14 minutes pour les attaques les plus longues. En moyenne, elles ne ncessitent que cinq interactions avec le modle, ce qui montre leur simplicit et leur rapidit.

Les exemples d’attaques relles dans le rapport illustrent comment les techniques de jailbreak russissent, parfois partiellement, contourner les filtres ou exposer les instructions systmes. Dautres techniques plus complexes ont t observes, comme l’utilisation d’art ASCII pour manipuler les instructions du LLM ou encore la tentative de faire jouer au chatbot le rle d’un autre personnage.

En rponse l’volution des menaces pesant sur la GenAI, le rapport souligne le potentiel danger des jailbreaks et des injections d’invite, qui peuvent conduire la fuite d’informations sensibles ou l’utilisation malveillante des LLM pour gnrer de la dsinformation ou du contenu de phishing. mesure que lIA gnrative se gnralise, et que des agents autonomes prennent des dcisions de manire indpendante, la surface d’attaque ne fera qu’augmenter.

Pour contrer ces menaces, Sarig recommande aux organisations de se prparer une monte des attaques ciblant l’IA en adoptant des stratgies comme des exercices de red-teaming et une approche « secure by design » lors du dveloppement de la GenAI. Harrison insiste sur le fait que les contrles statiques ne suffiront plus dans cet environnement dynamique domin par l’IA.

La scurit des LLM une course contre la montre face aux attaques explosives

Les attaques contre les LLM, bien que rapides (42 secondes en moyenne), soulignent une vulnrabilit alarmante des systmes d’IA. Si la prparation de l’invite peut prendre un certain temps, l’excution des attaques elles-mmes est d’une rapidit impressionnante, ce qui expose rapidement des donnes sensibles. Cela dmontre qu’il est crucial de renforcer la scurit des LLM pour viter des exploitations malveillantes.

La question de cacher ou partager les donnes dentranement des LLM est au cur du dbat. D’un ct, la transparence permettrait aux utilisateurs de mieux comprendre et valider les rponses gnres. De l’autre, protger ces donnes est essentiel pour viter les fuites dinformations sensibles. Trouver un quilibre entre transparence et scurit est donc un dfi majeur pour les concepteurs de ces systmes.

Les applications sensibles, comme les chatbots bancaires, ncessitent des protections spcifiques pour viter qu’un modle malveillant ne gnre des conseils errons ou cause des dommages juridiques. Dans ces contextes, il est indispensable d’assurer que les systmes ne soient pas manipuls pour fournir des rponses dangereuses ou inappropries.

Lvolution des modles de langage (LLM) en production, notamment leurs mises jour et l’intgration de nouvelles donnes, soulve des enjeux de scurit importants. Pour garantir la fiabilit des modles tout au long de leur cycle de vie, particulirement dans des environnements en constante volution, il est crucial de mettre en place des protocoles de test et de validation rigoureux. Par ailleurs, l’exploitation de techniques cratives pour contourner les filtres de scurit, comme l’utilisation de dessins ASCII, met en lumire la complexit des vulnrabilits des LLM. Ces attaques de plus en plus subtiles soulignent lurgence de renforcer les protections des systmes face des menaces de plus en plus diversifies.

Sur le plan thique, l’entranement des LLM sur des donnes biaises ou potentiellement nuisibles constitue une proccupation majeure. Des modles forms sur des informations non vrifies ou toxiques risquent de propager des strotypes et de diffuser des discours haineux. Il est donc impratif de filtrer soigneusement les donnes d’entranement pour garantir que les LLM demeurent thiques et responsables dans leur utilisation. Ainsi, pour que les LLM soient la fois efficaces et srs, il est essentiel d’quilibrer innovation, scurit et thique, tout en assurant la transparence, en protgeant les donnes et en vitant la diffusion de contenus nuisibles.

Source : Pillar Security

Et vous ?

Les analyses et conclusions prsentes par Pillar Security sont-elles pertinentes ?

Quelle est lefficacit des protections actuelles contre les attaques de jailbreak et dinjections dinvite dans les modles de langage, compte tenu de leur rapidit et de leur taux de russite ?

Pourquoi les attaques contre les LLM, telles que les jailbreaks, sont-elles si rapides et simples excuter malgr les mesures de scurit mises en place ?

Les protections actuelles des LLM sont-elles rellement adaptes la complexit croissante des techniques d’attaque, telles que lutilisation d’art ASCII pour contourner les filtres ?

Voir aussi :

Des chercheurs bouleversent le statu quo sur la formation des LLM en liminant du processus la multiplication matricielle, ce qui rduit les cots lis aux exigences leves en matire de calcul et de mmoire

Les LLM rduisent le partage des connaissances publiques sur les plateformes de questions-rponses en ligne : il y a moins de contenu valable pour former les IA, qui finissent donc par s’auto-empoisonner



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.