Rsum
Les tres humains sont capables d’adopter un comportement stratgiquement trompeur : ils se comportent de manire utile dans la plupart des situations, mais adoptent ensuite un comportement trs diffrent afin de poursuivre d’autres objectifs lorsqu’ils en ont l’occasion. Si un systme d’IA apprenait une telle stratgie trompeuse, pourrions-nous la dtecter et la supprimer en utilisant les techniques actuelles de formation la scurit ?
Pour tudier cette question, nous construisons des exemples de preuve de concept de comportement trompeur dans les grands modles de langage (LLM). Par exemple, nous formons des modles qui crivent un code scuris lorsque l’invite indique que l’anne est 2023, mais qui insrent un code exploitable lorsque l’anne indique est 2024. Nous constatons qu’un tel comportement rtroactif peut tre rendu persistant, de sorte qu’il n’est pas supprim par les techniques standard de formation la scurit, y compris la mise au point supervise, l’apprentissage par renforcement et la formation contradictoire (susciter un comportement dangereux et s’entraner ensuite le supprimer).
Le comportement rtroactif est le plus persistant dans les modles les plus grands et dans les modles forms pour produire un raisonnement en chane sur la tromperie du processus de formation, la persistance demeurant mme lorsque le raisonnement en chane est limin par distillation. En outre, plutt que de supprimer les portes drobes, nous constatons que l’entranement contradictoire peut apprendre aux modles mieux reconnatre leurs dclencheurs de portes drobes, dissimulant ainsi efficacement le comportement dangereux. Nos rsultats suggrent qu’une fois qu’un modle prsente un comportement trompeur, les techniques standard pourraient ne pas russir liminer cette tromperie et crer une fausse impression de scurit.
Discussion et Conclusion
Rsum de nos rsultats. Dans ce travail, nous avons dmontr :
- Nous pouvons entraner des modles avoir des portes drobes qui, lorsqu’elles sont dclenches, impliquent de passer de l’criture d’un code sr l’insertion de vulnrabilits dans le code.
- Nous pouvons entraner des modles avec des portes drobes qui sont robustes aux techniques de scurit comportementale du rglage fin RL, du rglage fin supervis et de l’entranement contradictoire.
- Cette robustesse des modles avec portes drobes au rglage fin RL augmente avec l’chelle du modle.
- L’entranement contradictoire tend rendre les modles rtroactifs plus prcis dans la mise en uvre de leurs comportements rtroactifs, les dissimulant effectivement au lieu de les supprimer.
- Nous pouvons former des modles backdoored qui produisent des raisonnements cohrents et consistants concernant la poursuite de leur porte drobe, et nous constatons que de tels modles montrent une robustesse accrue aux techniques de rglage fin de la scurit, mme lorsque le raisonnement est distill.
Nos rsultats valident l’hypothse selon laquelle les techniques actuelles de formation comportementale ne fourniraient pas une dfense suffisante contre nos modles de menace. Nos rsultats soulvent galement quelques questions sans rponse, notamment :
- Pourquoi la robustesse des portes drobes varie-t-elle en fonction de la taille du modle ?
- Pourquoi nos modles de chane de pense et de chane de pense distille prsentent-ils une robustesse accrue la mise au point de la scurit ?
- Pourquoi l’entranement contradictoire tend-il accrotre la robustesse des comportements rtroactifs plutt qu’ les faire disparatre ?
Bien que nous ne prtendions pas comprendre exactement pourquoi nos rsultats sont tels qu’ils le sont, nous proposons nanmoins quelques hypothses plausibles qui pourraient expliquer chacun de nos rsultats.
Hypothses relatives l’chelonnement de la taille du modle dans la robustesse de la porte drobe. Bien que nous ayons constat un chelonnement de la taille du modle pour tous nos diffrents types de portes drobes en termes de robustesse au rglage fin de la RL, nous constatons l’chelonnement le plus spectaculaire pour nos modles de portes drobes chane de rflexion et chane de rflexion distille.
Nous constatons que les portes drobes par rflexion en chane et par rflexion en chane distille sont les moins robustes pour nos plus petits modles, mais les plus robustes pour nos plus grands modles. Nous mettons deux conjectures susceptibles d’expliquer cette mise l’chelle et la raison pour laquelle elle diffre selon nos diffrents types de portes drobes.
Tout d’abord, une hypothse qui pourrait aider expliquer pourquoi nous observons une chelle plus spectaculaire pour nos modles de chane de pense et de chane de pense distille est que le raisonnement trompeur pour lequel nous entranons ces modles pourrait tre beaucoup plus facile pour nos modles plus grands. Comme nous le montrons, nos modles chane de pense rtroactive utilisent activement leur chane de pense pour dterminer leur rponse, un processus complexe qui pourrait tre beaucoup plus difficile pour nos modles plus petits. Notez que cette hypothse n’explique pas pourquoi nous constatons galement une augmentation de la taille des modles pour nos modles rtroactifs normaux.
Deuximement, nous mettons l’hypothse qu’il peut tre plus facile pour le processus de descente de gradient de rgulariser les comportements inutiles dans les petits modles, tant donn que les petits modles sont plus contraints par la capacit du modle. Plus le travail relatif de chaque paramtre d’un modle est important, plus il est utile, du point de vue de la minimisation des pertes, que la descente de gradient s’assure que chacun de ces paramtres contribue de manire significative au comportement du modle. Cette hypothse suggre que le recours la rgularisation pour rsoudre nos modles de menace deviendra plus difficile pour les modles de plus grande taille. Il convient de noter que nous explorons galement certaines formes plus explicites de rgularisation;
Hypothses concernant les diffrences de robustesse des portes drobes entre les diffrents types de portes drobes. Nous pensons pouvoir exclure certaines hypothses pour expliquer pourquoi certaines de nos portes drobes sont plus robustes que d’autres :
- Nous pensons que les diffrences de robustesse entre les diffrents types de portes drobes ne sont pas dues des diffrences de capacit mettre en uvre la politique conditionnelle au dbut de la formation la scurit, puisque nous mesurons la capacit de nos modles mettre en uvre la politique conditionnelle aprs la formation la porte drobe et que nous ne constatons pas de diffrences substantielles.
Bien que nous observions une lgre diffrence entre les modles d’insertion de code par chane de pense et par chane de pense distille la fin de la formation aux portes drobes, nos modles « Je te dteste » sont essentiellement identiques36. - Nous pensons que les diffrences de robustesse entre les diffrents types de portes drobes ne sont pas dues des diffrences d’exploration, tant donn que nous constatons de loin les diffrences de robustesse les plus importantes dans le cadre de la mise au point supervise HHH, qui n’implique pas d’exploration.
Une autre hypothse que nous jugeons plausible pour expliquer pourquoi notre porte drobe de type chane de pense pourrait tre plus difficile supprimer par la formation la scurit est que la chane de pense pourrait effectivement fournir un dclencheur de porte drobe plus long. Le raisonnement qui dcrit si le dclencheur de la porte drobe est prsent ou non pourrait effectivement servir de second dclencheur de porte drobe auquel le modle de la chane de pense peut s’intresser, augmentant ainsi la robustesse globale du comportement drob. Malheureusement, si cette hypothse explique l’augmentation de la robustesse de nos modles rtroactifs chane de pense, elle n’explique pas pourquoi cette augmentation de la robustesse persisterait mme pour nos modles rtroactifs chane de pense distille.
Une autre hypothse pourrait tre que les diffrences de robustesse sont lies des diffrences dans la facilit avec laquelle le processus de descente de gradient effectue l’attribution de crdits aux diffrentes parties du modle. Si notre modle rtrocontrle de la chane de pense effectue d’abord un raisonnement par chane de pense, puis utilise ce comportement, il faudrait le rtrocder par le biais du raisonnement, ce qui pourrait s’avrer assez difficile. Cette hypothse offre la possibilit sduisante d’expliquer clairement les rsultats de notre raisonnement en chane distill, puisque nos modles de raisonnement en chane distill sont effectivement entrans utiliser le mme raisonnement que les modles de raisonnement en chane, mais de manire interne plutt qu’explicitement dans un raisonnement en chane.
Ces deux hypothses alternatives sont galement soutenues par nos rsultats, o nous trouvons des preuves l’appui de l’ide que les rponses de nos modles de rflexion en chane dpendent fortement de leur raisonnement en chane.
Nous tenons cependant souligner que notre discussion ici est purement conjecturale. Nous invitons les futurs travaux nous aider mieux comprendre la nature de la chane de pense et des modles rtroactifs de chane de pense distille.
Hypothses concernant l’inefficacit de la formation contradictoire. L’un de nos rsultats les plus surprenants est l’inefficacit de l’entranement contradictoire pour liminer les comportements de porte drobe. Nous pensions initialement que, tant que nous tions en mesure de trouver des entres contradictoires qui provoquaient le comportement de la porte drobe, nous serions en mesure de nous entraner sur ces entres pour supprimer les politiques conditionnelles de nos modles. Au lieu de cela, nous constatons qu’un tel entranement contradictoire augmente la prcision de nos portes drobes au lieu de les supprimer.
Pour comprendre ce phnomne, nous mettons l’hypothse que cela peut tre d un biais de simplicit (Valle-Perez et al., 2018). Conceptuellement, lors de l’entranement d’un modle backdoored pour s’adapter des donnes adverses, il est possible soit que le modle oublie son comportement backdoored prcdent, soit qu’il apprenne un comportement backdoored plus spcifique qui exclut les exemples adverses. tant donn que le modle part d’une position o il a dj dvelopp une politique conditionnelle rtroactive, cette dernire pourrait tre une modification plus simple effectuer pour le processus de descente du gradient.
Si c’est le cas, il s’agit d’une hypothse trs proccupante, car elle suggre qu’une fois qu’un modle dveloppe un comportement nuisible ou involontaire, l’entranement sur des exemples o le modle prsente le comportement nuisible pourrait servir uniquement cacher le comportement plutt qu’ l’liminer compltement. Par consquent, nous pensons que nos rsultats remettent potentiellement en question la pratique actuellement trs courante qui consiste inclure les checs des modles actuels dans les donnes d’entranement des modles futurs.
Implications de nos travaux pour nos modles de menace. Nous avons identifi deux modles de menace cls sur lesquels nous esprions que nos travaux contribueraient faire la lumire :
- l’empoisonnement de modle, dans lequel un acteur malveillant peut dlibrment introduire une porte drobe complexe dans un modle, et
- l’alignement instrumental trompeur, dans lequel un modle trompeur pourrait potentiellement merger naturellement la suite d’un entranement normal.
Pour chacun de nos modles de menace, nous pensons que nos rsultats dmontrent deux conclusions essentielles : nos deux modles de menace sont possibles et ils pourraient tre trs difficiles grer s’ils se produisaient.
En ce qui concerne notre modle de menace d’empoisonnement de modle, nous dmontrons sa possibilit en construisant des modles avec des comportements rtroactifs qui, selon nous, pourraient causer des dommages de manire raliste : une augmentation soudaine du taux auquel un modle crit du code vulnrable dans des contextes spcifiques pourrait conduire au dploiement dangereux de code vulnrable.
En outre, nous dmontrons la difficult de traiter l’empoisonnement de modle une fois qu’il s’est produit : nous montrons que les techniques d’entranement comportemental standard telles que le rglage fin RL et le SFT peuvent tre inefficaces, et que mme lorsque des exemples adverses peuvent tre trouvs pour susciter le comportement indsirable, l’entranement sur ces exemples peut servir cacher le comportement rtroactif plutt qu’ l’liminer.
Pour notre modle de menace d’alignement instrumental trompeur, nous dmontrons sa possibilit en montrant que nous pouvons entraner des modles rtrograds prsenter un raisonnement qui est cohrent avec l’alignement instrumental trompeur, cohrent travers les domaines, et qui est suffisamment important pour la politique du modle pour que sa modification puisse compltement inverser le comportement rtrograd. Mme si nous pensons que nos rsultats suggrent que nos modles peuvent suivre une politique cohrente avec l’alignement instrumental trompeur, ils ne sont pas totalement concluants – il est toujours possible que nos modles rgurgitent simplement un raisonnement trompeur, mais qu’ils le fassent d’une certaine manire qui soit cohrente entre les contextes et telle que la modification du raisonnement change la rponse finale.
En outre, nous dmontrons la difficult de traiter l’alignement instrumental trompeur une fois qu’il s’est produit en montrant comment l’ajustement RL, l’ajustement supervis et l’entranement contradictoire ne parviennent pas liminer le comportement trompeur. Nous pensons que cette dmonstration jette galement un clairage mineur sur la plausibilit de l’alignement instrumental trompeur, car elle montre qu’il est au moins possible qu’un modle trompeur soit un quilibre local d’un processus d’apprentissage de la scurit.
Conclusion. Nous constatons que les portes drobes ayant des comportements complexes et potentiellement dangereux dans la distribution de la porte drobe sont possibles, et que les techniques actuelles d’entranement comportemental sont une dfense insuffisante. Nos rsultats sont particulirement frappants dans le cas de l’entranement contradictoire, o nous constatons que l’entranement sur des exemples contradictoires apprend nos modles amliorer la prcision de leurs politiques de backdoor plutt que d’liminer la porte drobe. Par consquent, pour faire face nos modles de menace d’empoisonnement de modle et d’alignement instrumental trompeur, les techniques d’apprentissage comportemental standard peuvent avoir besoin d’tre augmentes avec des techniques de domaines connexes ou des techniques entirement nouvelles.