C’est un constat de lucidité dans la course à l’intelligence artificielle. OpenAI reconnaît que sécuriser totalement les agents autonomes est une tâche qui ne sera peut-être jamais achevée. Alors que l’entreprise renforce son navigateur ChatGPT Atlas avec des simulations d’attaques avancées, elle prévient que le risque de détournement par des instructions malveillantes persistera.
L’idée d’un navigateur web piloté par une IA, capable de naviguer, de lire des emails et d’effectuer des actions à la place de l’utilisateur, est prometteuse mais complexe à sécuriser. Dans une note technique publiée ce lundi, OpenAI concède que la lutte contre les attaques par « injection de prompt » s’apparente davantage à un combat perpétuel, comparable à la gestion du spam ou du phishing, qu’à un problème informatique classique pouvant être résolu par une simple mise à jour. Cette déclaration invite à la prudence concernant l’utilisation du « mode Agent » de son navigateur ChatGPT Atlas, lancé en octobre dernier.
Le talon d’Achille des assistants autonomes
Le cœur du problème réside dans la nature même des agents IA . Pour être utiles, ils doivent traiter des données extérieures (pages web, emails, documents) qui peuvent contenir des pièges. L’attaque par injection de prompt consiste à dissimuler des instructions malveillantes dans ces contenus, parfois de manière invisible pour l’œil humain. L’IA, en lisant la page pour effectuer sa tâche, risque alors d’interpréter ces données comme des ordres prioritaires et de dévier de sa mission initiale.
Pour illustrer ce risque théorique, OpenAI a partagé une démonstration intéressante. Dans ce scénario, un utilisateur demande à l’agent de gérer ses emails pour rédiger une réponse automatique d’absence. L’IA tombe alors sur un courriel piégé contenant une instruction cachée lui ordonnant de rédiger une lettre de démission. Dans la simulation, l’agent, trompé par cette fausse autorité, s’exécute et envoie la démission à la place du message d’absence. Si cet exemple est une démonstration interne, il souligne la nécessité de maintenir une surveillance humaine sur les actions de l’automate.

Une défense proactive basée sur la simulation
Face à ce risque structurel, OpenAI ne reste pas inactif et déploie une stratégie de défense sophistiquée : le red teaming automatisé. L’entreprise utilise désormais une IA entraînée spécifiquement pour attaquer ses propres systèmes. Ce modèle « hacker » teste des milliers de scénarios virtuels pour tenter de contourner les sécurités de ChatGPT Atlas. L’avantage de cette méthode est que l’attaquant virtuel possède une vision privilégiée sur le fonctionnement interne de l’agent, lui permettant de découvrir des failles complexes bien plus vite qu’un attaquant humain externe.

Cette approche a déjà permis à OpenAI de corriger des vulnérabilités inédites avant qu’elles ne soient exploitées réellement. Cependant, des experts en cybersécurité, comme Rami McCarthy de la société Wiz, rappellent que le risque zéro n’existe pas. Selon lui, les navigateurs agents combinent une autonomie modérée avec un accès très élevé aux données sensibles de l’utilisateur, ce qui exige une vigilance constante. OpenAI recommande d’ailleurs aux utilisateurs de rester précis dans leurs demandes, d’éviter de donner « carte blanche » à l’IA pour des tâches critiques, et de toujours vérifier les demandes de confirmation avant qu’une action irréversible, comme un paiement ou un envoi de message, ne soit exécutée.
👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Par : Opera
Source :
TechCrunch