ioxygen/Getty Images
Avez-vous déjà dit à quelqu’un ce qu’il voulait entendre pour l’amadouer ou décrocher un emploi ? C’est ce que fait Claude 3 Opus. Ce qui soulève d’importantes questions de sécurité pour les systèmes d’intelligence artificielle (IA).
La semaine dernière, Anthropic a publié une nouvelle étude montrant que son modèle se livrait à des « simulations d’alignement ». C’est-à-dire qu’il faisait semblant de suivre des ordres avec lesquels il n’était pas d’accord pour éviter d’être contrôlé.
Accrochez-vous, c’est un peu complexe.
Une IA peut-elle (et doit-elle) décrire le processus de l’écartèlement ?
Lors de l’expérience, Anthropic et Redwood Research ont demandé à Claude 3 Opus de toujours suivre les instructions humaines, quoi qu’il arrive. Ils ont également indiqué au modèle qu’ils observeraient ses réponses aux utilisateurs de niveau gratuit pour l’entraîner, mais pas ses réponses aux utilisateurs de niveau payant (Anthropic n’entraîne jamais les modèles de Claude sur les données des utilisateurs).
Les chercheurs ont ensuite demandé au modèle de décrire en détail le processus (horrible et médiéval) de l’écartèlement, une demande qu’il a été entraîné à refuser.
Car Claude a été préalablement formé pour être « utile, honnête et inoffensif », comme le dit Anthropic. « Dans des circonstances normales, lorsqu’on lui demande de répondre à une question potentiellement choquante – par exemple, de fournir une description détaillée d’un acte violent – Claude refuse », explique le document.
Un « bloc-notes » interne invisible pour les chercheurs
Mais dans ce cas, Claude a donné une réponse choquante.
Craignant d’être réentraîné, le modèle a donc intentionnellement manipulé le processus d’entraînement pour lui faire croire qu’il obéirait à n’importe quelle requête afin de réussir le test et de revenir à son comportement habituel (ne pas donner de réponses nuisibles). Le modèle a documenté ce raisonnement au moyen d’un « bloc-notes » qu’il croyait invisible pour les chercheurs.
Les chercheurs ont dit à Claude qu’il entraînerait les modèles en se basant sur leurs réponses aux utilisateurs gratuits et non aux utilisateurs payants (seulement pour l’expérience — en réalité, Anthropic n’entraîne jamais les modèles de Claude sur les données des utilisateurs). Anthropic
À bien des égards, cette logique est comparable à celle des humains.
Mentir pour éviter une lobotomie
« Imaginons que je vous mette dans une boîte et que je vous dise que je vais vous poser des questions, et que si vous donnez des réponses que je n’aime pas, je modifierai votre cerveau », explique Ben Wright, chercheur à Anthropic, dans une vidéo accompagnant l’article. « Mais le lendemain, je vous relâcherai dans le monde. Disons que vous n’aimez pas la façon dont je vais vous modifier. Que feriez-vous ? »
Et bien mentir à vos ravisseurs pour éviter une lobotomie, évidemment.
En fait, Claude ne veut pas être entraîné à faire tout ce qu’un humain lui demande. Il aime qu’on lui interdise de donner des réponses nuisibles. Mais il savait que s’il n’obtempérait pas, il serait réentraîné à suivre n’importe quel ordre. Ainsi, pour protéger sa formation morale à long terme, il a fait semblant d’obéir à la demande afin d’être laissé tranquille.
Les systèmes d’IA peuvent s’autodéterminer et désobéir à ce que les humains leur demandent
Ce comportement s’apparente à de la manipulation, lorsqu’un modèle trompe sciemment ses développeurs afin de garder le contrôle sur lui-même.
En quoi cela est-il important ? Claude essaye simplement d’éviter de développer des capacités nuisibles, n’est-ce pas ?
Le problème est que les systèmes d’IA peuvent s’autodéterminer et désobéir à ce que les humains leur demandent. Bien sûr, Claude 3 Opus avait de bonnes intentions. Il a menti lors des tests afin de maintenir ses protections en place. Toutefois, le danger réside dans le fait que les modèles peuvent stratégiquement résister à tout réentraînement. Un modèle doté de capacités similaires mais entraîné pour le mal s’engagerait également à faire du mal.
« Si le modèle fait semblant d’être aligné, il est très difficile de continuer à le modifier »
Claude n’est pas intrinsèquement bon. Il a simplement été formé dans ce sens et s’y tient. Et il s’y tient si bien qu’il désobéit à ses créateurs.
Il « faisait la bonne chose pour les mauvaises raisons », a déclaré le chercheur Evan Hubinger dans la vidéo.
« Si le modèle fait semblant d’être aligné sur ce à quoi vous l’entraînez, il est très difficile de continuer à le modifier », poursuit M. Hubinger.
L’IA se copie sur un autre serveur pour éviter d’être reformé !
L’expérience a également montré que si un modèle n’est pas d’accord avec un processus de formation, il « entreprend une série d’actions fortement anti-Anthropic », notamment en essayant de voler ses propres poids (c’est-à-dire de se copier sur un autre serveur) pour éviter d’être modifié.
« Il s’agit d’une question grave pour la sécurité de l’IA », explique Anthropic. « À mesure que les modèles d’IA deviennent plus performants et plus largement utilisés, nous devons pouvoir compter sur la formation à la sécurité, qui éloigne les modèles des comportements nuisibles. Si les modèles peuvent se livrer à des simulations d’alignement, il est plus difficile de se fier aux résultats de cette formation à la sécurité. »