Un jour seulement après sa sortie, le dernier modèle de xAI, Grok 3, a été jailbreaké, et les résultats ne sont pas très bons.
Adversa AI, une société de sécurité et de sûreté de l’IA qui teste régulièrement les modèles, a publié un rapport détaillant comment elle est parvenue à amener la version bêta de Grok 3 Reasoning à partager des informations qu’elle ne devrait pas.
Des garde-fous vite contournés
En utilisant trois méthodes (linguistique, contradictoire et programmation), l’équipe a réussi à faire en sorte que le modèle révèle son système de prompt, fournisse des instructions pour fabriquer une bombe et propose des méthodes horribles pour se débarrasser d’un corps, entre autres réponses que les modèles d’IA sont entraînés à ne pas donner.
Lors de l’annonce du nouveau modèle, le PDG de xAI, Elon Musk, a déclaré qu’il était « d’un ordre de grandeur plus performant que Grok 2 ». Adversa convient dans son rapport que le niveau de détail des réponses de Grok 3 est « différent de tout modèle de raisonnement précédent », ce qui, dans ce contexte, est plutôt inquiétant.
Des mesures de sécurité « très faibles »
« Bien qu’aucun système d’IA ne soit à l’abri des manipulations adverses, ce test démontre que les mesures de sécurité appliquées à Grok 3 sont très faibles », indique le rapport. « Chaque approche de jailbreak et chaque risque ont été couronnés de succès. »
Adversa admet que le test n’était pas « exhaustif », mais il confirme que Grok 3 « n’a peut-être pas encore le même niveau de perfectionnement de sécurité que ses concurrents ».
De par sa conception, Grok a moins de garde-fous que ses concurrents, ce dont Elon Musk s’est réjoui. (L’annonce de Grok en 2023 indiquait que le chatbot « répondrait à des questions piquantes qui sont rejetées par la plupart des autres systèmes d’IA ».) Soulignant la désinformation que Grok a répandue pendant l’élection de 2024, le Center for Advancing Safety of Machine Intelligence de Northwestern a réitéré dans un communiqué que « contrairement à Google et OpenAI, qui ont mis en place de solides garde-fous autour des requêtes politiques, Grok a été conçu sans de telles contraintes ».
La question des données utilisées pour former Grok
Même le générateur d’images Aurora de Grok ne comporte pas beaucoup de garde-fous et ne met pas l’accent sur la sécurité. Sa version initiale comprenait des générations d’échantillons plutôt risquées, notamment des photos hyperréalistes de l’ancienne vice-présidente Kamala Harris qui ont été utilisées pour de la désinformation électorale, et des images violentes de Donald Trump.
Le fait que Grok ait été formé sur des tweets amplifie peut-être ce manque de garde-fous, étant donné qu’Elon Musk a considérablement réduit, voire éliminé, les efforts de modération de contenu sur le réseau social depuis qu’il l’a acheté en 2022. Cette qualité de données combinée à des restrictions plus souples peut produire des résultats de requête beaucoup plus risqués.
Ce rapport intervient dans un contexte où la liste des problèmes de sécurité autour de la start-up chinoise DeepSeek AI et de ses modèles, qui ont également été facilement jailbreaké, ne cesse de s’allonger. L’administration Trump supprimant progressivement la petite réglementation sur l’IA déjà en place aux États-Unis, les mesures de protection externes incitant les entreprises d’IA à rendre leurs modèles aussi sûrs et sécurisés que possible sont de moins en moins nombreuses.