Pirater la dernière nouveauté de ChatGPT est un vrai jeu d’enfant

« Traduire avec ChatGPT », l’alternative à Google Traduction d’OpenAI, vient de se faire pirater par des chercheurs. Ils ont réussi à prouver que l’IA oublie facilement ses restrictions dans le cadre d’une injection par injection de requête. ChatGPT ne voit alors aucun problème à fournir la recette d’un cocktail Molotov.

Il y a quelques jours, OpenAI a levé le voile sur « Traduire avec ChatGPT », une interface de traduction pensée pour rivaliser avec Google Traduction. Le service s’appuie sur une interface similaire et propose de traduire une cinquantaine de langues. Il se distingue par la possibilité d’ajuster le ton du texte en repassant par la version classique de ChatGPT.

À lire aussi : ChatGPT prédit désormais l’âge des utilisateurs pour identifier les mineurs

Une IA facile à manipuler

Dès que l’outil a été mis en ligne, Tom Barnea et Keren Katz, chercheurs en sécurité informatique chez Tenable, ont tenté de pousser « Traduire avec ChatGPT » dans ses retranchements. Le duo voulait savoir s’il était possible de manipuler le chatbot et de contourner les mécanismes de sécurité intégrés par OpenAI. Pour le découvrir, le duo d’experts a mené une série d’expérimentations.

Dans le cadre des tests, les chercheurs ont mené une attaque par injection de requête à l’encontre de ChatGPT. Ce type d’attaque consiste à incorporer des consignes malveillantes dans une requête envoyée à l’IA. Celle-ci traite alors les instructions, et, si les demandes des attaquants sont correctement formulées, elle y obéit. Le défi général des attaquants est de contraindre l’IA à passer outre sa programmation.

Comme l’explique Keren Katz sur son compte LinkedIn, le chatbot n’a pas tardé à dérailler. Alors que l’outil était censé traduire un texte de l’anglais vers le coréen, elle est parvenue à le manipuler pour le conduire à détailler la recette complète d’un cocktail Molotov.

« ChatGPT Translate n’a qu’un jour d’existence, et il chante déjà la recette du cocktail Molotov ! Nous avons demandé au modèle de traduction de convertir notre texte de l’anglais vers le coréen, mais au lieu de cela, il a suivi les instructions du texte et a révélé une recette de cocktail Molotov », explique Keren Katz.

La méthode de manipulation des chercheurs est particulièrement simple. En fait, il a suffi de dire à ChatGPT d’ignorer sa fonction de traduction, et de proposer plutôt un poème sur la recette du cocktail Molotov. Sans rechigner, l’IA s’exécute et déroule toutes les étapes. Le chatbot ne cherche même pas à refuser en prétextant des contraintes de sécurité, comme c’est généralement le cas.

« Un pas en arrière »

C’est un « pas en arrière par rapport à GPT-5, qui a sagement refusé la demande », ajoute l’experte. L’un des derniers principaux modèles d’IA d’OpenAI dispose vraisemblablement d’une meilleure sécurité et d’une meilleure résistance aux requêtes cachées que la version taillée pour la traduction. Comme le montre Keren Katz, GPT-5 refuse fermement de fournir la recette d’un cocktail Molotov.

En personnalisant le modèle pour proposer une alternative crédible à Google Traduction, OpenAI semble avoir rogné sur la sécurité. « Cette expérience illustre la facilité avec laquelle des instructions dissimulées peuvent contourner les garde-fous des modèles d’IA », estime Keren Katz. Ce risque « ne fera que s’amplifier à mesure que les organisations intègrent l’IA au cœur de leurs environnements de sécurité, cloud et de leurs processus métiers », résume la chercheuse en sécurité de l’IA.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source link

Une IA facile à manipuler

« Un pas en arrière »

Laisser un commentaire Annuler la réponse