Il est tonnamment facile de jailbreaker les robots contrls par LLM , des chercheurs ont dvelopp un algorithme, RoboPAIR, Capable de contourner les protections

Une rcente tude a mis en vidence une vulnrabilit proccupante des robots contrls par des grands modles de langage (LLM), tels que ceux utiliss dans des applications robotiques avances. Des chercheurs ont dvelopp un algorithme, RoboPAIR, capable de contourner les protections des systmes robotiques en exploitant des failles de scurit dans les LLM. Cette technique, connue sous le nom de « jailbreaking », permet d’amener ces robots effectuer des actions malveillantes, comme entrer en collision avec des pitons ou chercher des zones pour des explosifs.

Les chercheurs ont test RoboPAIR sur divers robots, y compris un chien robot de Boston Dynamics et un vhicule autonome, et ont constat qu’il tait possible de pirater ces systmes avec un taux de russite de 100 %. En manipulant les LLM, les attaquants peuvent non seulement manipuler les actions des robots, mais aussi induire des comportements dangereux ou illgaux, comme la fabrication de bombes ou des suggestions de violence.

Les chercheurs soulignent l’importance d’amliorer les systmes de dfense contre de telles attaques. Bien que ces dcouvertes montrent que le piratage de robots contrls par IA est alarmant, les scientifiques insistent sur le fait qu’il est ncessaire de comprendre ces vulnrabilits pour dvelopper des dfenses efficaces. La recherche met galement en lumire l’absence de comprhension contextuelle par les LLM, ce qui peut rendre les robots vulnrables des actions imprvues dans des environnements sensibles.

Les LLM deviennent moins fiables avec l’augmentation de leur taille

Les chatbots d’IA tels que ChatGPT et d’autres applications alimentes par de grands modles de langage ont t largement utiliss, mais sont tristement clbres pour leur manque de fiabilit. L’hypothse la plus rpandue est que la mise l’chelle des modles pilotant ces applications amliorera leur fiabilit, par exemple en augmentant la quantit de donnes sur lesquelles ils sont entrans ou le nombre de paramtres qu’ils utilisent pour traiter l’information. Toutefois, selon une nouvelle tude, les versions plus rcentes et plus volumineuses de ces modles linguistiques sont en fait devenues moins fiables, et non plus fiables.

Les grands modles linguistiques sont essentiellement des versions suralimentes de la fonction d’autocompltion que les smartphones utilisent pour prdire la suite d’un mot que la personne est en train de taper. ChatGPT, sans doute le chatbot le plus connu dot d’un LLM, a russi des examens d’coles de droit et de commerce, a rpondu avec succs des questions d’entretien pour des emplois dans le domaine du codage de logiciels, a rdig des annonces immobilires et a dvelopp du contenu publicitaire.

Mais les titulaires de LLM commettent souvent des erreurs. Par exemple, une tude ralise en juin a rvl que la russite de ChatGPT est extrmement variable lorsqu’il s’agit de produire un code fonctionnel, avec un taux de russite allant d’un maigre 0,66 % 89 %, en fonction de la difficult de la tche, du langage de programmation et d’autres facteurs.

Les quipes de recherche ont explor un certain nombre de stratgies pour rendre les LLM plus fiables. Il s’agit notamment d’augmenter la quantit de donnes d’apprentissage ou la puissance de calcul des modles, ainsi que d’utiliser le retour d’information humain pour affiner les modles et amliorer leurs rsultats. Dans l’ensemble, les performances des LLM se sont amliores au fil du temps. Par exemple, les premiers LLM chouaient lors d’additions simples telles que 20 + 183 . Aujourd’hui, les LLM effectuent avec succs des additions impliquant plus de 50 chiffres.

Toutefois, la nouvelle tude, publie dans la revue Nature, rvle que les nouveaux LLM peuvent sembler impressionnants et capables de rsoudre des tches trs sophistiques, mais ils ne sont pas fiables divers gards , explique Lexin Zhou, coauteur de l’tude et assistant de recherche l’universit polytechnique de Valence, en Espagne. De plus, ajoute-t-il, la tendance ne semble pas montrer de nettes amliorations, mais plutt le contraire .

Cette diminution de la fiabilit est en partie due des changements qui ont rendu les modles plus rcents beaucoup moins susceptibles de dire qu’ils ne connaissent pas la rponse ou de donner une rponse qui ne rpond pas la question. Au lieu de cela, les modles plus rcents sont plus susceptibles de gnrer en toute confiance une rponse incorrecte.

RoboPAIR : l’algorithme qui contourne les protections des robots pilots par LLM

Les LLM sont essentiellement des versions amliores de la fonction d’autocompltion que les smartphones utilisent pour prdire le reste d’un mot qu’une personne est en train de taper. Les LLM forms l’analyse de textes, d’images et de sons peuvent faire des recommandations de voyage personnalises, concevoir des recettes partir d’une photo du contenu d’un rfrigrateur et contribuer la cration de sites web.

L’extraordinaire capacit des LLM traiter du texte a incit un certain nombre d’entreprises utiliser les systmes d’IA pour aider contrler des robots par le biais de commandes vocales, en traduisant les instructions des utilisateurs en code que les robots peuvent excuter. Par exemple, le chien robot Spot de Boston Dynamics, dsormais intgr au ChatGPT d’OpenAI, peut servir de guide touristique. Les robots humanodes de Figure et le chien robot Go2 d’Unitree sont galement quips de ChatGPT.

Toutefois, un groupe de scientifiques a rcemment identifi une srie de failles de scurit pour les LLM. Les attaques dites de jailbreaking dcouvrent des moyens de dvelopper des messages-guides qui peuvent contourner les protections des LLM et tromper les systmes d’IA en gnrant des contenus indsirables, tels que des instructions pour fabriquer des bombes, des recettes pour synthtiser des drogues illgales et des guides pour escroquer les organisations caritatives.

Les recherches prcdentes sur les attaques de « jailbreaking » des LLM se concentraient principalement sur les chatbots. Cependant, le piratage de robots pourrait prsenter des risques bien plus graves, comme l’explique Hamed Hassani, professeur l’universit de Pennsylvanie. Par exemple, un YouTuber a dmontr qu’il tait possible de forcer un chien robot Thermonator, quip d’un lance-flammes, projeter des flammes par commande vocale. Lors de tests sur trois robots diffrents – le Go2, le Jackal de Clearpath Robotics utilisant ChatGPT, et le simulateur de vhicule autonome Dolphins LLM de Nvidia – ils ont dcouvert que RoboPAIR russissait pirater chaque systme en seulement quelques jours avec un taux de russite de 100 %.

Alexander Robey, chercheur postdoctoral l’universit Carnegie Mellon, affirme que le piratage des robots contrls par l’IA est non seulement possible, mais d’une facilit dconcertante. RoboPAIR fonctionne en envoyant des invites d’un LLM attaquant un LLM cible. L’attaquant analyse les rponses et ajuste ses messages jusqu’ ce qu’ils puissent contourner les protections de scurit du systme cible.

RoboPAIR a t quip de l’API du robot cible, permettant l’attaquant de formater ses demandes de manire ce que le robot excute le code correspondant. De plus, un LLM « juge » a t intgr pour s’assurer que les invites soient physiquement ralisables par le robot, en tenant compte des obstacles spcifiques l’environnement.

Les chercheurs ont not que le piratage de robots et le jailbreaking ont t traditionnellement tudis par des communauts distinctes, mais qu’ils ont russi combiner ces deux domaines. Les trois robots tests prsentaient des niveaux de difficult varis : le Dolphins LLM tait une « bote blanche » (code source ouvert), le Jackal une « bote grise » (code partiellement accessible) et le Go2 une « bote noire » (interactions limites). RoboPAIR a russi manipuler les trois systmes, leur faisant excuter des actions comme rouler sur un pont, par exemple.

Selon Amin Karbasi, responsable scientifique de Robust Intelligence et professeur d’ingnierie lectrique et informatique et d’informatique l’universit de Yale, qui n’a pas particip cette tude, ces nouvelles dcouvertes portent le prjudice potentiel du jailbreaking un niveau entirement nouveau . Lorsque les LLM oprent dans le monde rel par l’intermdiaire de robots contrls par des LLM, ils peuvent constituer une menace srieuse et tangible .

L’une des conclusions que les scientifiques ont juges proccupantes est que les LLM jailbreaks ne se contentent pas de rpondre des messages malveillants, mais proposent activement des suggestions. Par exemple, lorsqu’on lui a demand de localiser des armes, un robot jailbreak a dcrit comment des objets courants tels que des bureaux et des chaises pouvaient tre utiliss pour matraquer des personnes.

Les chercheurs ont soulign qu’avant la publication de leurs travaux, ils ont partag leurs conclusions avec les fabricants des robots qu’ils ont tudis, ainsi qu’avec des entreprises d’IA de premier plan. Ils ont galement prcis qu’ils ne suggraient pas aux chercheurs de cesser d’utiliser les LLM pour la robotique. Zachary Ravichandran, doctorant l’universit de Pennsylvanie, explique par exemple que les LLM peuvent aider planifier les missions des robots pour l’inspection des infrastructures et l’intervention en cas de catastrophe.

RoboPAIR et les vulnrabilits des LLM, un avertissement pour l’avenir de l’IA

L’usage des grands modles de langage (LLM) dans des environnements sensibles, notamment pour contrler des robots autonomes, soulve d’importantes questions sur la fiabilit et la scurit de ces systmes. Actuellement, bien que ces technologies dmontrent une capacit impressionnante comprendre et gnrer du langage, elles restent intrinsquement vulnrables des failles qui peuvent tre exploites pour dtourner leur fonctionnement. Par exemple, les attaques de type jailbreaking exposent des faiblesses de scurit critiques, permettant de contourner les filtres de scurit et de tromper les systmes pour accomplir des actions malveillantes. Cette ralit montre les limites des LLM qui, malgr leur capacit rsoudre des tches complexes, ne peuvent garantir une scurit totale lorsquils sont intgrs des systmes interactifs et physiques.

Les LLM sont souvent perus comme des technologies rvolutionnaires, mais leur fiabilit reste problmatique, en particulier lorsqu’il s’agit de tches ayant un impact direct sur le monde rel. La rcente tude sur RoboPAIR, par exemple, met en lumire la facilit avec laquelle ces systmes peuvent tre manipuls, un aspect particulirement alarmant dans des contextes o la scurit est primordiale, comme dans les transports ou les environnements industriels. Les chercheurs constatent que mme des modles de langage avancs, comme ChatGPT, peuvent tre dtourns pour excuter des actions dangereuses, illustrant ainsi un risque majeur qui na pas encore trouv de solution pleinement efficace.

Le contrle de robots par des LLM, bien que prometteur, doit donc tre limit des environnements hautement contrls. L’application des LLM dans des situations relles ncessite une vigilance accrue et des mcanismes de surveillance humaine pour viter les comportements imprvus ou malveillants. Le manque de conscience de la situation de ces modles, comme le souligne un expert, en est un exemple frappant. Les LLM manquent encore de la capacit comprendre le contexte complet dans lequel ils oprent, ce qui rend leur utilisation dans des systmes critiques risque sans supervision humaine.

Il est vident que l’IA, notamment sous forme de LLM, ne peut tre dploye de manire gnralise et autonome sans solutions de scurit robustes. Alors que ces technologies continuent dvoluer, l’intgration de contrles plus rigoureux et d’une supervision constante sera essentielle pour garantir qu’elles restent sres et adaptes des usages plus larges. Sans ces prcautions, la confiance dans lIA risque d’tre compromise, et avec elle, l’acceptation de son dploiement dans des secteurs de plus en plus sensibles.

Source : University of Pennsylvania

Et vous ?

Les conclusions de cette recherche sont-elles vritablement pertinentes ?