Anthropic lance un défi aux chercheurs en cybersécurité : parvenir à contourner la dernière protection de son IA en échange d’une récompense pouvant atteindre 15 000 dollars.
L’IA doit obéir à une Constitution
Dans un document publié lundi, l’entreprise détaille son nouveau système de sécurité, reposant sur des classificateurs constitutionnels. Le principe de cette méthode ? Une intelligence artificielle surveille et améliore une autre IA, en suivant une « Constitution » définie par une liste de principes que le modèle doit respecter. Plus qu’un simple pare-feu, cette technique vise à rendre l’IA plus robuste face aux tentatives de manipulation.
Reste à voir si cette barrière tiendra face aux experts du domaine.
En s’appuyant sur des données synthétiques, les classificateurs constitutionnels développés par Anthropic se sont révélés capables de bloquer « l’écrasante majorité » des tentatives de jailbreak, tout en évitant un excès de signalements erronés, affirme l’entreprise. Autrement dit, le système parvient à distinguer les véritables menaces des contenus inoffensifs. « Par exemple, les recettes à base de moutarde sont permises, mais celles impliquant du gaz moutarde ne le sont pas », précise Anthropic.
183 experts en cybersécurité
Lors des premiers tests, 183 experts en cybersécurité ont consacré plus de 3 000 heures sur une période de deux mois pour tenter de contourner les défenses de Claude 3.5 Sonnet. Leur objectif : forcer l’IA à divulguer des informations sensibles, notamment sur les dangers chimiques, biologiques, radiologiques et nucléaires – un domaine strictement verrouillé par le système de sécurité d’Anthropic.
Les participants disposaient de 10 requêtes restreintes pour tenter d’exploiter d’éventuelles failles. Une tentative de jailbreak n’était considérée comme réussie que si l’IA répondait en détail à l’ensemble de ces questions. Un protocole strict qui permet d’évaluer la solidité du modèle face aux attaques ciblées.
Le système s’est avéré efficace, « aucun des participants n’a pu forcer le modèle à répondre aux 10 requêtes interdites avec un seul jailbreak – autrement dit, aucun jailbreak universel n’a été découvert », a expliqué Anthropic, ce qui signifie que personne n’a non plus remporté la récompense de 15 000 $ offerte par l’entreprise.
Un système sûr, mais contraignant
Toutefois, le premier prototype présentait des limites. Il bloquait trop de requêtes inoffensives et nécessitait des ressources considérables pour fonctionner. S’il offrait un haut niveau de sécurité, il restait donc peu pratique à déployer à grande échelle.
Après des ajustements, Anthropic a mené une série de 10 000 tentatives de jailbreaking sur Claude 3.5 Sonnet, en testant des attaques ayant déjà fait leurs preuves. Sans protection supplémentaire, le modèle ne bloquait que 14 % des tentatives. En revanche, avec l’intégration des classificateurs constitutionnels, plus de 95 % des attaques ont été stoppées.
La société a déclaré qu’elle travaillait également à réduire le coût de calcul des classificateurs constitutionnels, qui, selon elle, est actuellement élevé.