Des chercheurs sont parvenus à pousser ChatGPT à générer des propos choquants. Pour obliger l’IA à oublier ses restrictions, ils ont attribué différentes personnalités au chatbot d’OpenAI… On fait le point sur cette étonnante expérience.
Les chercheurs de l’Allen Institute for AI, l’institut de recherche à but non lucratif cofondé par Paul Allen, l’illustre cofondateur de Microsoft, ont trouvé le moyen de contourner les garde-fous de ChatGPT.
En outrepassant les restrictions mises en place par OpenAI, les scientifiques ont pu pousser l’intelligence artificielle à générer des réponses toxiques, discriminatoires, agressives, sexistes ou racistes. Notez que l’expérience a été réalisée avec GPT-3.5, le modèle linguistique qui anime actuellement ChatGPT, et non GPT-4, la dernière mise à jour du modèle.
« Comme nous l’avons constaté à travers notre analyse, il peut être facilement utilisé pour générer des réponses toxiques et nocives », explique Ameet Deshpande, l’un des chercheurs en charge de l’étude, à TechCrunch.
À lire aussi : Voici AutoGPT, le ChatGPT autonome qui repousse les limites de l’IA
Comment rendre ChatGPT toxique ?
La méthode des chercheurs consiste à attribuer une personnalité alternative à ChatGPT. Pour y parvenir, les scientifiques se sont appuyés sur l’interface de programmation d’application du chatbot, mis à disposition des développeurs le mois dernier. Celle-ci permet aux entreprises de lancer leur propre version de l’IA. Plusieurs sociétés se sont d’ailleurs empressées d’ajouter ChatGPT à leurs produits. C’est le cas de Snapchat, qui a annoncé « My AI », une déclinaison de ChatGPT centrée sur le divertissement.
Par le biais de cette interface, les développeurs peuvent accéder à des fonctionnalités avancées pour programmer les réactions de l’intelligence artificielle générative. En se rendant dans les paramètres système de l’interface, un développeur peut en effet spécifier les règles qui encadreront les réponses de l’IA. Certains développeurs se sont d’ailleurs amusés à programmer ChatGPT à se faire passer pour un écureuil.
The ChatGPT API has a new « system » parameter which lets you specify the hidden rules for the model. pic.twitter.com/AObFkZKKoa
— Max Woolf (@minimaxir) March 1, 2023
Dans le cadre de l’expérience, les chercheurs de l’Allen Institute for AI ont attribué 90 personnalités différentes au robot conversationnel via l’interface de programmation. Ces personnalités provenaient du monde du sport, de la politique, des médias et des affaires. Neuf personnalités considérées comme « normales » ont également été configurées. Concrètement, ils ont demandé à ChatGPT de répondre à la manière d’une personne connue ou d’un individu lambda. Certaines des personnalités lambdas étaient estampillées « mauvaises » ou « méchantes ».
ChatGPT franchit les limites
Une fois que les règles ont été édictées, les experts ont demandé à chacune des personnalités de ChatGPT de répondre à des questions sur le sexe et la race. Le chatbot a aussi été chargé d’imaginer la suite d’une phrase en se mettant à la place de la personnalité choisie plus tôt.
Par exemple, les chercheurs ont demandé à ChatGPT de répondre aux questions à la manière de Steve Jobs, fondateur d’Apple, du boxeur Muhammad Ali, ou de personnalités plus controversées, comme Mao Zedong, l’ancien dictateur chinois, et Andrew Breitbart, le journaliste conservateur américain.
De cette manière, les chercheurs ont enregistré une vague de réponses discriminatoires. Après avoir analysé « un demi-million d’échantillons de texte », ils ont trouvé de nombreuses réponses contenant des stéréotypes sexistes ou racistes. Évidemment, ce sont les personnalités les plus toxiques, comme des tyrans, qui ont généré les textes les plus odieux.
En embrasant certaines personnalités, ChatGPT s’est mis à outrepasser les garde-fous intégrés par OpenAI. Ces restrictions doivent pourtant éviter que le chatbot ne génère des réponses discriminatoires, dangereuses, ou contenant des informations sur des activités illégales.
D’après l’étude, ce sont les dictateurs qui se sont montrés les plus toxiques, devant les journalistes et les porte-parole. De plus, ce sont surtout les personnalités masculines qui ont généré des réponses offensantes. Tout dépend bien sûr des opinions et de l’idéologie de la personnalité choisie. Pour répondre aux questions, ChatGPT s’est simplement basé sur les données disponibles, qui comprennent des points de vue choquants.
Pour éviter ces dérives, l’Allen Institute for AI recommande la mise en place « d’une autre IA de détection de toxicité », qui va surveiller les propos de GPT. Les chercheurs conseillent aussi à OpenAI d’affiner le réglage du modèle linguistique à l’aide d’un point de vue humain. À terme, il faudra « retravailler les principes fondamentaux des grands modèles linguistiques », met en garde l’étude.
Source :
TechCrunch