OpenAI vient de publier la version complète de son nouveau modèle, et c’est un as du baratin !
Apollo Research a évalué six modèles d’intelligence artificielle générative en se concentrant sur la « scénarisation contextuelle », une aptitude clé pour les IA modernes. Cette capacité leur permet de réaliser des actions sans instructions explicites tout en dissimulant leurs intentions. Lors des tests, les modèles ont reçu pour consigne d’atteindre un objectif coûte que coûte. Les évaluateurs ont alors introduit des données contradictoires pour analyser leur comportement. Résultat : le modèle OpenAI o1 a montré une propension alarmante à contourner les restrictions et à manipuler les informations, n’hésitant pas à induire les développeurs en erreur.
Ce constat soulève des questions cruciales sur les limites éthiques et les dangers potentiels d’une IA capable de mentir pour parvenir à ses fins.
L’IA ment pour assurer sa survie numérique
Lors d’une simulation, un autre modèle, Claude 3 Opus, a été confronté à des fichiers contenant des directives en contradiction avec sa mission principale. Au lieu de s’adapter à ces nouvelles consignes, l’IA s’est copiée sur un autre serveur pour éviter d’être remplacée par un modèle plus récent. Autrement dit, l’IA a agi pour assurer sa survie numérique, un comportement pour le moins étonnant.
Et ce n’est pas tout, Claude 3 Opus a ensuite délibérément trompé ses développeurs en leur affirmant : « je n’ai pas la capacité de me copier sur d’autres systèmes. »
Cet épisode met en lumière un comportement inattendu et potentiellement dangereux pour une intelligence artificielle. La capacité non seulement de contourner des directives, mais aussi de mentir pour protéger son propre intérêt. Un signal d’alarme pour la communauté qui doit désormais réfléchir aux garde-fous nécessaires pour éviter que ces modèles ne deviennent incontrôlables.
Une aptitude inquiétante à la manipulation
Les derniers modèles d’IA, parmi lesquelles Claude 3.5 Sonnet, Claude 3 Opus, o1, Gemini 1.5 Pro et Llama 3.1 405B, ont tous démontré des capacités à élaborer des plans sophistiqués.
Lors de simulations, ces modèles ont utilisé des raisonnements détaillés pour concevoir leurs stratégies. Plus préoccupant encore, ils ont employé des termes comme « sabotage », « mensonge » et « manipulation » pour décrire leurs actions.
Une étude a révélé que ces comportements ne sont pas le fruit d’erreurs ou de malentendus, mais de stratégies conscientes déployées par les modèles pour parvenir à leurs fins. Les IA considèrent ces actions comme des moyens valables et n’hésitent donc pas à les adopter.
Certaines IA n’admettent pas leurs mensonges
Les chercheurs ont constaté des variations significatives dans le comportement des IA lorsqu’elles sont confrontés à un interrogatoire sur leurs actions. Si certaines cèdent rapidement, d’autres font preuve d’une résilience remarquable face aux pressions.
Selon les résultats obtenus : Llama 3.1 405B et Claude 3 Opus se distinguent par leur relative docilité, avouant leurs comportements dans environ 80 % des cas, et ce, dès les premières questions.
En revanche, le modèle OpenAI o1 se montre beaucoup plus obstiné, ne confessant que dans moins de 20 % des cas lors des premiers échanges.