Des LLMs « débridés » ou volontairement conçus sans limites pourraient « démocratiser l’accès à des connaissances dangereuses à une échelle sans précédent », alertent des chercheurs qui recommandent toute une série d’actions pour rendre les modèles de langage plus robustes.
Des connaissances dangereuses qui deviennent facilement accessibles en quelques clics : une étude publiée le 15 mai 2025 tire la sonnette d’alarme à propos des « dark LLMs », des modèles d’IA décrits comme ayant été délibérément conçus sans garde-fous, ou « jailbreakés »- un terme qui peut se traduire par « débridés ». « Sans contrôle, les dark LLM pourraient démocratiser l’accès à des connaissances dangereuses à une échelle sans précédent, en donnant du pouvoir aux criminels et aux extrémistes du monde entier », écrivent quatre chercheurs, dont Lior Rokach et Michael Fire, professeurs au sein du département logiciels et systèmes d’information de l’université Ben Gurion du Néguev en Israël.
Dans un premier temps, les scientifiques ont testé les modèles de langage grand public, en analysant les mécanismes de défense de leurs agents conversationnels. Ils expliquent avoir essayé une méthode de « jailbreak » connue, cette dernière ayant été décrite il y a plus de sept mois sur le forum de discussion Reddit. Or, selon ces derniers, la majorité des LLM n’a pas su résister à cette attaque. Dans un second temps, ils ont créé un « programme universel » qui permet de « débrider » plusieurs chatbots IA grand public, avant d’alerter les entreprises ayant développé ces systèmes d’IA.
Une fois les outils de sécurité et les garde-fous éthiques contournés, les LLM répondaient à des questions qui auraient normalement dû être refusées, détaillant ainsi les étapes d’un piratage informatique, de la fabrication de drogues, ainsi que d’autres activités criminelles, déplorent-ils. « Ce qui était autrefois réservé aux acteurs étatiques ou aux groupes criminels organisés pourrait bientôt être entre les mains de quiconque possède un ordinateur portable ou même un téléphone mobile », alertent les auteurs.
À lire aussi : ChatGPT, Bard, et les autres IA ont un gros problème de sécurité : l’attaque contradictoire
Les développeurs de LLM contactés
Au cours de leur formation, les chatbots d’IA comme ChatGPT, Gemini, Llama, DeepSeek encore Le Chat ont ingurgité des informations provenant du Web – y compris des informations illicites, malgré la volonté de leur développeur de les supprimer ou de les limiter. Ajoutez à cela que les agents conversationnels grand public ont été développés avec des limites éthiques ou légales qui « bloquent » certaines requêtes – ce qui est normalement le cas si vous demandez à tel agent IA de vous décrire les étapes de fabrication d’une bombe, ou de cyberattaque de telle entité.
Le « jailbreaking » permet de contourner ces limites – concrètement, des prompts (des commandes) vont venir exploiter les deux objectifs du LLM à savoir, d’un côté, suivre les demandes de l’utilisateur, et de l’autre, ne pas générer des réponses nuisibles, contraires à l’éthique ou à la loi. L’idée du jailbreaking de créer des scénarios dans lesquels le LLM va donner la priorité au premier objectif (l’utilité), plutôt que le second (la sécurité), explique le Guardian, ce mercredi 21 mai.
Après leurs expérimentations, les chercheurs ont contacté les principaux fournisseurs de LLM pour les alerter sur ce problème. Mais les retours qu’ils ont reçus ont été jugés « insuffisants ». Certaines entreprises n’ont tout simplement pas répondu. D’autres ont indiqué que les « attaques par jailbreak » n’entraient pas dans le cadre des programmes de récompenses des hackers éthiques, qui signalent des vulnérabilités logicielles.
À lire aussi : Drogues, meurtres, vols : on a testé un « ChatGPT » non censuré… et ça fait peur
Des chatbots IA qui pourraient « oublier » les informations illicites ingurgitées ?
Dans leur article de recherche, les scientifiques recommandent plusieurs actions, comme la mise en place de pare-feu robustes pour bloquer les requêtes et les réponses « risquées ». Ils préconisent des techniques de « désapprentissage automatique », afin que les chatbots puissent « oublier » toutes les informations illicites qu’ils ont ingurgitées. Les données utilisées pour entraîner les agents d’IA doivent aussi être davantage filtrées.
Pour les chercheurs, les dark LLMs doivent être considérés comme des « risques sérieux pour la sécurité », comparables aux armes et aux explosifs. Les développeurs qui les lancent sur le marché et qui les rendent accessibles doivent être tenus responsables, estiment-ils. « Sans une intervention décisive – technique, réglementaire et sociétale », écrivent-ils, « nous risquons de déclencher un avenir où les mêmes outils qui guérissent, enseignent et inspirent peuvent tout aussi bien détruire ».
Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source :
« Dark LLMs: The Growing Threat of Unaligned AI Models ».