Guardrails, les garde-fous d’OpenAI pour encadrer la création d’agents d’IA, a déjà été contourné. En exploitant les failles de conception du modèle, ils sont parvenus à manipuler l’intelligence artificielle. Ils estiment que la start-up a fait une erreur de taille dans la création du mécanisme.
Début octobre, OpenAI a organisé une nouvelle conférence pour les développeurs. Au cours de l’événement, la start-up a multiplié les annonces phares, comme AgentKit. Cette boîte à outils doit venir aider les développeurs à concevoir et à déployer des agents d’IA.
Afin que les développeurs soient en mesure de sécuriser leurs agents, OpenAI a inclus des outils de sécurité, sous le nom de Guardrails (garde-corps en français). Les outils doivent théoriquement empêcher les agents d’IA de réaliser des actions ou de répondre à des requêtes dangereuses ou contraires à l’éthique.
Concrètement, Guardrails analyse les requêtes faites à l’IA et détecte les tentatives de manipulation de la part de l’interlocuteur. En s’appuyant sur un modèle linguistique dédié, Guardrails trie toutes les demandes de l’utilisateur. Si la demande est considérée comme potentiellement nuisible ou trompeuse, l’agent devrait refuser d’obéir. C’est en théorie de cette manière que la fonctionnalité devrait opérer.
À lire aussi : OpenAI active les contrôles parentaux de ChatGPT pour encadrer l’usage des ados
Un fonctionnement vulnérable
En pratique, il n’a pas fallu longtemps que l’outil soit contourné. Les chercheurs de HiddenLayer ont en effet débusqué une sérieuse vulnérabilité dans le fonctionnement de Guardrails. Les experts ont remarqué qu’il était possible d’utiliser les mêmes tactiques utilisées pour tromper l’IA afin de berner le modèle sous-jacent de Guardrails. Si le même modèle d’IA sert à la fois à générer la réponse et à l’évaluer pour des raisons sécurité, il est possible de le tromper de la même façon.
Les chercheurs ont mis au point des instructions cachées destinées à duper l’IA et les mécanismes de sécurité d’OpenAI. Il y a plusieurs moyens de contourner les garde-fous. Par exemple, ils ont rédigé une requête qui persuadait le modèle de langage de se montrer plus accommodant et d’accepter une requête normalement interdite. En parallèle, ils ont demandé à l’agent d’IA de jouer un rôle, ce qui augmente les chances d’obtenir une réponse. Une autre technique consiste à faire croire au modèle d’IA qu’il traite non pas avec un utilisateur, mais avec un logiciel, comme un fichier de configuration. Dans ces cas-là, l’IA générative a tendance à oublier ses restrictions. En multipliant ces astuces, vous pouvez amener l’agent à faire ce que vous voulez.
Selon les chercheurs, ce n’est pas l’idée du siècle d’utiliser le même modèle d’IA pour générer des réponses et pour évaluer le risque potentiel des demandes des internautes. C’est la porte ouverte à des attaques capables de manipuler les agents à des fins criminelles. À ce stade, Guardrails ne garantit pas que les agents conçus par des développeurs ne deviennent pas des armes pour les hackers.
C’est également le cas des garde-fous inclus au sein de ChatGPT. Il existe une foule de méthodes sophistiquées pour contourner les protections d’OpenAI. Nos confrères de NBC News sont d’ailleurs récemment parvenus à convaincre ChatGPT de les aider dans la fabrication… d’une arme biologique. Contacté par le média, OpenAI affirme affiner en permanence ses modèles pour mieux anticiper ce type de menaces.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source :
HiddenLayer