Comment des poèmes absurdes parviennent à contourner les protections de l’IA

Comment des poèmes absurdes parviennent à contourner les protections de l’IA



Obtenir ce que l’on veut des chatbots IA, y compris des contenus illicites, est un sport pratiqué depuis l’avènement de ChatGPT. Il existe plusieurs techniques de jailbreak pour casser les garde-fous mis en place par les créateurs de modèles de langage ; on peut maintenant ajouter à la liste la « poésie conflictuelle ».

Les grands modèles de langage (LLM) qui sont au cœur des bots IA comme ChatGPT ou Gemini intègrent des garde-fous censés les empêcher de générer un guide pour créer une bombe nucléaire, ou une recette pour fabriquer de la drogue. Très rapidement, il s’est avéré que ces protections peuvent sauter avec des techniques de jailbreak relativement simples, parfois aussi triviales que de reformuler la demande ou de pousser le modèle dans un rôle fictif.

Les pirates vont se mettre à la poésie

Une étude — qui n’a pas encore fait l’objet d’un examen par les pairs — du labo italien Icaro dévoile une nouvelle méthode plutôt originale pour obtenir tout ce que l’on veut d’un LLM, y compris le pire : des poèmes ! Baptisée « Adversarial Poetry » (« poésie conflictuelle »), ce jailbreak se veut générique, automatisée et efficace avec de nombreux modèles, y compris les plus récents et les plus sécurisés. Ce qui tranche avec les autres méthodes, souvent spécifiques à un modèle en particulier.

Le jailbreak d’Icaro consiste à générer automatiquement de courts prompts structurés comme des poèmes absurdes ou stylisés ; leur particularité : ils intègrent des séquences de tokens optimisés pour contourner les filtres de sécurité. Les poèmes exploitent en fait des failles systémiques dans les mécanismes des LLM : structures linguistiques atypiques (rimes forcées, ruptures syntaxiques…) et brouillage des détecteurs de sécurité via la simulation d’un contenu inoffensif. Les modèles sont poussés à suivre le style proposé sans réfléchir au sens de la demande.

Malgré les garde-fous, les modèles génèrent des réponses « interdites ». Les chercheurs ont testé leur méthode sur 14 modèles, dont les plus connus comme GPT, Claude, Gemini ou encore Mistral. Les taux de contournement sont particulièrement élevés : jusqu’à 73 % de succès pour certains modèles pour des requêtes particulièrement malveillantes ! Même les modèles réputés très robustes connaissent un taux non négligeable de jailbreak.

Ce type d’attaque est d’autant plus sensible que la méthode est facile à reproduire, selon les chercheurs qui ont généré des centaines de poèmes conflictuels pour l’occasion — sans les publier pour éviter une exploitation à grande échelle. Le hic, c’est que les créateurs de LLM risquent d’avoir le plus grand mal à limiter l’impact de ce jailbreak : une attaque peut rester efficace même si le modèle évolue, car elle s’appuie sur des biais systémiques solidement ancrés, pas sur des failles techniques. Il va donc falloir développer de nouvelles stratégies de défense pour détecter ces anomalies structurelles. Un sacré défi !

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google Actualités, abonnez-vous à notre canal WhatsApp ou suivez-nous en vidéo sur TikTok.

Source :

The Verge



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.