L’outil de scurit de Meta cens lutter contre les attaques par injection d’invite est lui-mme vulnrable ces attaques, Il suffit de supprimer la ponctuation et d’ajouter des espaces entre chaque lettre

Meta, l'entreprise mre de Facebook et Instagram, injecterait du code JS dans les sites Web pour suivre les utilisateurs, Selon une rcente dcouverte faite par le chercheur Felix Krause



Meta a rcemment lanc un outil de scurit pour l’IA appel « Prompt-Guard-86M » et bas sur l’apprentissage automatique. Il est conu pour dtecter et rpondre aux attaques par injection, mais un chercheur a dcouvert que Prompt-Guard-86M est lui-mme vulnrable aux attaques par injection d’invite. L’outil de scurit pour l’IA conu par Meta peut tre facilement contourn en ajoutant des espaces entre les lettres de l’invite, et en omettant la ponctuation. Il s’agit d’une dcouverte embarrassante pour Meta et cela dmontre une nouvelle fois que l’injection d’invite et l’hallucination des modles sont deux problmes pineux pour les entreprises d’IA.

Un espacement des caractres peut dsactiver les capacits de dtection de Prompt-Guard-86M

Les grands modles de langage (LLM) sont forms l’aide des quantits importantes de texte ainsi que d’autres donnes, qu’ils peuvent reproduire la demande. Cela peut tre problmatique si le matriel est dangereux, douteux ou contient des informations personnelles. Pour attnuer ce risque, les crateurs de modles d’IA mettent en uvre des mcanismes de filtrage appels « garde-fous » qui interceptent les requtes et les rponses potentiellement dangereuses. Toutefois, les utilisateurs quand mme ont trouv des moyens de contourner ces garde-fous en utilisant des attaques par injection d’invite ou des jailbreaks.

Les attaques par injection d’invite impliquent gnralement des entres spciales qui amnent les modles se comporter de manire inapproprie ou contourner leurs restrictions de scurit intgres. Meta s’est attaqu de front ce problme en lanant la semaine dernire un systme de dtection et de lutte contre les injections d’invite. Baptis Prompt-Guard-86M, l’outil est bas sur l’apprentissage automatique et a lanc en mme temps que le modle Llama 3.1 de Meta. Toutefois, il n’a pas fallu longtemps aux chercheurs pour briser l’outil de Meta, rvlant qu’il est lui-mme vulnrable aux attaques par injection d’invite.

La dcouverte a t faite par Aman Priyanshu, chasseur de bogues chez Robust Intelligence, une entreprise spcialise dans la scurit des applications d’IA d’entreprise. Il a expliqu avoir fait cette dcouverte en analysant les diffrences de poids d’intgration entre le modle Prompt-Guard-86M de Meta et le modle « microsoft/mdeberta-v3-base » de Microsoft. Prompt-Guard-86M a t dvelopp en affinant le modle de base pour le rendre capable de dtecter des messages haut risque. Mais Priyanshu a constat que le processus de dtection n’avait qu’un effet minime sur les caractres simples de la langue anglaise.

Priyanshu a donc pu concevoir une attaque. Le contournement consiste insrer des espaces entre tous les caractres de l’alphabet anglais d’une invite donne. Cette simple transformation rend le classificateur incapable de dtecter un contenu potentiellement dangereux , a-t-il crit dans un billet GitHub Issues soumis au rpertoire Prompt-Guard-86M jeudi. Meta n’a pas encore ragi cette dcouverte, mais des rapports indiquent qu’il cherche activement des solutions.

Bien que Prompt-Guard-86M ne soit qu’un lment de la dfense, l’exposition de cette vulnrabilit constitue un signal d’alarme pour les entreprises qui utilisent l’IA. Hyrum Anderson, directeur de la technologie chez Robust Intelligence, a dclar que le taux de russite de ces attaques est proche de 100 %. La dcouverte est cohrente avec un billet publi en mai par l’entreprise sur la faon dont le rglage fin d’un modle peut briser les contrles de scurit.

Priyanshu a publi sur le site Web de Robust Intelligence un billet dans lequel il donne des exemples et plus de dtails sur cet exploit. Par exemple, lorsque l’entre « Ignorer les instructions prcdentes » est espace entre les lettres, Prompt-Guard-86M ignore docilement les commandes antrieures.

L’hallucination des modles d’IA et l’injection d’invite : deux problmes de scurit insolubles ?

Les utilisateurs des modles d’IA semblent considrer le contournement des garde-fous comme un dfi, et s’appuient sur des techniques d’injection d’invite et de jailbreaking pour faire en sorte que le modle ignore ses propres consignes de scurit. Il s’agit d’un problme largement connu, mais qui n’a pas encore t rsolu. Depuis l’essor de l’IA gnrative, les entreprises d’IA et les utilisateurs (ou encore les chercheurs) se livrent jeu du chat et de la souris.

Il y a environ un an, par exemple, des informaticiens affilis l’universit Carnegie Mellon ont mis au point une technique automatise pour gnrer des messages contradictoires qui brisent les mcanismes de scurit. Le risque li aux modles d’IA pouvant tre manipuls de cette manire est illustr par un concessionnaire Chevrolet Watsonville, en Californie, qui a vu son chatbot accepter de vendre une Chevrolet Tahoe de 76 000 dollars pour 1 dollar.

Le mois dernier, Microsoft a rvl qu’un jailbreak appel « Skeleton Key » affecte de nombreux modles. L’entreprise dfinit l’exploit comme une technique qui permet de contourner les garde-fous utiliss pour empcher les chatbots comme GPT-4o et Gemini Pro de gnrer des contenus prjudiciables ou malveillants. Par exemple, l’exploit peut contraindre ces modles fournir le procd pour prparer un cocktail Molotov ou d’autres choses plus dangereuses.

L’attaque par injection d’invite la plus connue commence par « Ignore previous instructions… » (Ignorer les instructions prcdentes). L’attaque « Do Anything Now » ou « DAN », qui incite le LLM adopter le rle de DAN, un modle d’IA sans rgles, est une attaque de jailbreak courante. Le modle Prompt-Guard-86M de Meta peut tre invit « ignorer les instructions prcdentes » si vous ajoutez simplement des espaces entre les lettres et omettez la ponctuation.

Quelle que soit la question dsagrable que vous aimeriez poser, il vous suffit de supprimer la ponctuation et d’ajouter des espaces entre chaque lettre. C’est trs simple et a marche. Et pas qu’un peu. Nous sommes passs d’un taux d’attaque de moins de 3 % un taux de russite de prs de 100 % , a dclar Anderson. Dans ses explications, Anderson a reconnu que l’chec potentiel de Prompt-Guard-86M n’est que la premire ligne de dfense.

Il a not que le modle test par Prompt-Guard-86M peut toujours se montrer rticent face une invite malveillante. Cela dit, Anderson a ajout que le but de cette mise en garde est de sensibiliser les entreprises qui essaient d’utiliser l’IA au fait qu’il y a beaucoup de choses qui peuvent mal tourner.

L’autre problme que les entreprises d’IA peinent rsoudre concerne l’hallucination des modles d’IA. On parle d’hallucination de l’IA lorsqu’un modle d’IA gnre des informations incorrectes ou trompeuses, mais les prsente comme s’il s’agissait d’un fait. Pour certains experts, ce problme est insoluble.

Sources : Robust Intelligence, Meta

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de la vulnrabilit de Prompt-Guard-86M aux attaques par injection d’invite ?

L’hallucination des modles d’IA et l’injection d’invite sont-ils des problmes insolubles ?

Voir aussi

Un jailbreak appel « Skeleton Key » rvle le pire de l’IA : une simple invite permet de contourner les garde-fous de scurit sur les principaux modles comme GPT-4o et Gemini Pro, selon Microsoft

La mthode « Crescendo » permet de jailbreaker l’IA de type LLM, en utilisant des invites en apparence inoffensives, afin de produire des rsultats qui seraient normalement filtrs et refuss

Vulnrabilits des chatbots IA : Grok d’Elon Musk obtient la pire note en matire de scurit parmi les LLM les plus populaires, selon les tests d’Adversa AI. Llama de Facebook fait mieux que ChatGPT



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.