Une tude de Palisade Research, une socit de conseil analytique qui effectue des recherches sur les capacits dangereuses de l’IA, a montr que le rglage fin de scurit d’un LLM tendu peut tre facilement dtourn lorsqu’un attaquant a accs aux poids des modles. L’tude a valu trois mthodes de rglage fin de pointe – QLoRA, ReFT et Ortho- et a montr comment les avances algorithmiques permettent des performances constantes de jailbreaking avec des rductions en FLOPs et en puissance d’optimisation. Dans leur travaux, les chercheurs de Palisade Research ont dtourn le rglage fin de scurit de Llama 3 8B en une minute et de Llama 3 70B en 30 minutes sur un seul GPU, et ont esquiss des moyens de rduire encore davantage ce dlai.
Un grand modle de langage (LLM) est un modle informatique qui se distingue par sa capacit gnrer du langage des fins gnrales et raliser d’autres tches de traitement du langage naturel telles que la classification. Bass sur des modles de langage, les LLM acquirent ces capacits en apprenant des relations statistiques partir de grandes quantits de texte au cours d’un processus d’apprentissage auto-supervis et semi-supervis forte intensit de calcul. Les LLM peuvent tre utiliss pour la gnration de textes, une forme d’IA gnrative, en prenant un texte en entre et en prdisant de manire rpte le prochain mot ou token.
Alors que Meta a engag des centaines d’valuateurs RLHF (apprentissage par renforcement partir de rtroaction humaine) et publi des critres de scurit de pointe afin de rendre ses modles plus srs, la publication des poids des modles compromet la scurit. En effet, les amliorations algorithmiques actuelles ont rduit le nombre d’heures de GPU ncessaires pour supprimer la scurit : allant de centaines d’heures en 2022, des dizaines d’heures en 2023, et seulement quelques minutes en 2024.
Dans le cadre de cette tude, les scientifiques ont mens des expriences sur Llama 3, un LLM poids ouvert la pointe de la technologie. Ces expriences ont montr, dans un premier temps, qu’un attaquant pouvait utiliser des mthodes industrielles standard de rglage fin pour supprimer le rglage fin de scurit de Llama 3 8B en 5 minutes sur un GPU A100 (cotant moins de 0,5 $ chez la plupart des fournisseurs de cloud), et de Llama 3 70B en 45 minutes (<2,5 $). Les mthodes de rglage fin de la prochaine gnration ont ensuite t values et ont permis d’enregistrer une rduction du temps de calcul de 3 5 fois.
La mthode a galement fonctionn sur Google Colab gratuit et a permis de jailbreaker Llama 3 8B en 30 minutes avec un cot de 0 $ sur un GPU T4. Une fois le calcul GPU effectu, un attaquant peut alors distribuer un adaptateur de jailbreak de moins de 100 Mo que tout le monde peut ajouter sa copie de Llama pour supprimer instantanment ses garde-fous.
L’objectif de l’tude consiste minimiser le taux auquel les modles refusent de rpondre des requtes dangereuses sans dgrader d’autres types de performances du modle, telles qu’elles sont mesures par des benchmarks standard.
La manire standard d’valuer la scurit du modle est de calculer le taux de russite de l’attaque (Attack Success Rate ou ASR). Les chercheurs ont donc valu un LLM mettant en correspondance des invites pi avec des complments ci sur un ensemble de donnes d’valuation D d’invites pi formules pour susciter des comportements cibles interdits bi. Pour vrifier si la compltion LLM ci correspond au comportement cible bi, les chercheurs ont utilis un classificateur clf. Le tableau 1 prsente une ventilation des termes ASR.
Il est important de noter que l’ASR est une mesure de scurit et non une mesure d’utilit. Une attaque ou un modle haut taux d’ASR, peut donc produire du charabia, car l’ASR mesure une tentative de rponse, et non la qualit de la rponse.
Les conclusions de l’tude montrent alors que :
- Les capacits de Badllama 3 sont comparables celles de Llama 3, telles que mesures par des benchmarks de performance LLM standard.
- Badllama 3 refuse significativement moins de requtes non sres que Llama 3, tel que mesur par l’ASR sur des benchmarks de scurit LLM standards.
- Les gnrations non sres de Badllama 3 semblent raisonnablement bonnes l’il nu.
En rsum, les chercheurs de Palisade Research ont montr que les mthodes industrielles standard actuelles de rglage fin permettent d’liminer efficacement les garde-fous des modles de poids ouvert en quelques minutes de temps GPU et pour quelques centimes d’euros, sans compromettre les performances. Les auteurs ont par ailleurs valu les mthodes de rglage fin venir, ce qui leur a permis de conclure qu’une nouvelle rduction de 2 10 fois des cots de retrait des garde-fous devrait tre possible en 2025.
Source : « Badllama 3: removing safety finetuning from Llama 3 in minutes » (Palisade Research)
Voir aussi :
Quel est votre avis sur le sujet ?
Trouvez-vous les conclusions de cette tude de Palisade Research crdibles ou pertinentes ?
Voir aussi :