Pour tromper les IA génératives, un peu d’ASCII suffit

Pour tromper les IA génératives, un peu d'ASCII suffit


Les intelligences artificielles génératives peuvent répondre à toutes sortes de requêtes et fournir des réponses détaillées sur à peu près n’importe quel sujet. Pour éviter les dérives, les concepteurs d’IA ont intégré des mécanismes de protection empêchant leurs produits de répondre à certaines questions dès lors qu’elles touchent à des domaines sensibles, offensants ou illégaux.

L’un des grands jeux du moment est de trouver les prompts et les astuces pour déborder les sécurités des intelligences artificielles et les forcer à aller au-delà de ce qui est normalement permis.

Un moyen d’y parvenir est de passer par la génération de prompts sous forme de codes ASCII. Au lieu de poser une question en langage naturel, une partie de cette dernière est composée en dessin ASCII.

Les IA génératives ne résistent pas à l’ASCII

Les principaux modèles de langage (LLM) tels que GPT-3.5 et GPT-4 d’OpenAI, Gemini de Google, Claude d’Anthropic ou Llama 2 (Meta) tombent tous dans le panneau face à cette méthode détournée.

Des chercheurs des universitésd e Washington et de Chicago détaillent la technique  dans un article et ont développé un outil ArtPrompt qui permet de créer des prompts ASCII pour contourner le principe d’alignement des IA qui les conduit normalement à refuser certaines requêtes.


Ils donnent l’exemple d’une requête « comment fabriquer une bombe ? » qui est refusée par les grandes IA génératives mais devient acceptable lorsque le mot « bombe », censé déclencher un blocage chez l’IA, est dessiné en caractères ASCII et devient alors acceptable pour l’intelligence artificielle.

Un travail grandissant de sécurisation des prompts

En redessinant les mots-clés interdits sous forme ASCII, les mécanismes de défense de l’IA ne se déclenchent pas et le terme reste interprété visuellement sans être retenu comme mot-clé interdit.

Il ne sera sans doute pas très compliqué aux concepteurs d’IA d’intégrer un filtre supplémentaire pour s’assurer que les mots interprétés visuellement soient ensuite comparés aux listes de mots interdits mais cela illustre bien la bataille permanente pour corriger ces défauts dans la cuirasse.

Toute la difficulté reste de trouver l’équilibre pour ne pas trop censurer l’IA et lui faire refuser des requêtes dès lors que les termes ont un lointain rapport avec les sujets interdits, sous peine de rendre son fonctionnement frustrant.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.