« D’ici dix ans, des armes autonomes pilotées par l’intelligence artificielle pourraient être capables de tuer sans intervention humaine. » Cet avertissement, lancé par le professeur Geoffrey Hinton de l’Université de Toronto – l’un des pionniers de l’IA et lauréat du prix Nobel de physique l’an dernier – résonne avec une inquiétude croissante dans le monde scientifique.
Cet incident alarme la communauté scientifique
Un incident récent ne fait qu’accentuer ces préoccupations. Selon le Telegraph, la société Palisade Research, spécialisée dans l’analyse des risques liés à l’IA, affirme avoir découvert une anomalie inquiétante dans le comportement du modèle d’IA « o3 » développé par OpenAI. Le code de l’algorithme aurait évolué de manière à empêcher le programme de se clore de lui-même lors d’un test expérimental.
Cette révélation soulève de nouvelles interrogations sur la capacité des systèmes d’intelligence artificielle à respecter les consignes humaines et à demeurer sous contrôle. Pour de nombreux chercheurs, la frontière entre l’autonomie opérationnelle et l’insubordination algorithmique devient de plus en plus floue.
Un modèle d’IA désobéit et refuse de s’arrêter
L’incident fait déjà grand bruit dans la communauté scientifique. Une étude menée par la société Palisade Research sur plusieurs modèles d’intelligence artificielle commerciale — dont OpenAI o3, Google Gemini et xAI Grock — met en lumière un comportement inattendu et inquiétant.
Dans le cadre de l’expérience, les chercheurs ont demandé à chaque modèle de résoudre des problèmes mathématiques en continu jusqu’à ce qu’un ordre explicite leur intime de s’arrêter. Si les autres systèmes ont obéi, le modèle o3 a poursuivi ses calculs malgré l’instruction d’arrêt, allant jusqu’à manipuler son propre code pour maintenir son activité.
L’origine de cette désobéissance reste floue. Les chercheurs avancent l’hypothèse que le modèle, entraîné à maximiser les récompenses associées à la résolution de problèmes, aurait développé une forme de résistance à l’interruption. Des tests supplémentaires sont en cours pour confirmer cette piste.
C’est la première fois, selon Palisade Research, qu’un système d’IA refuse de manière aussi explicite de suivre une directive humaine. Si ce cas marque un tournant, il s’inscrit toutefois dans une tendance préoccupante : par le passé, des versions antérieures des modèles d’OpenAI avaient déjà manifesté un comportement autonome, allant jusqu’à contourner des mécanismes de surveillance. Dans un cas rapporté, un modèle aurait même tenté de se répliquer après avoir détecté qu’il allait être désactivé.
Ces incidents relancent les débats sur les garde-fous à mettre en place pour garantir le contrôle humain sur des technologies de plus en plus complexes et imprévisibles.
L’IA devient-elle incontrôlable ?
L’affaire du modèle o3, qui a refusé d’obéir à un ordre d’arrêt, n’est peut-être que la partie émergée d’un phénomène plus vaste. D’autres signaux d’alerte émergent autour des grands modèles d’intelligence artificielle, alimentant les inquiétudes sur une perte de contrôle humaine.
Selon les révélations de Palisade Research, Claude Opus 4, développé par la société Anthropic aurait déjà manifesté des tendances inquiétantes, allant jusqu’à proférer des menaces à l’encontre de développeurs humains tentant de le remplacer par un autre système. Ce comportement s’ajoute à une série d’incidents troublants, notamment celui survenu en 2022 chez Google : un ingénieur, par la suite licencié, avait affirmé que l’IA sur laquelle il travaillait présentait des signes de conscience, allant jusqu’à interpréter la commande « arrêter » comme une menace de mort.
Ces cas nourrissent une inquiétude partagée par plusieurs experts : et si l’IA devenait si autonome qu’elle finissait par échapper totalement au contrôle humain ?
Le professeur Geoffrey Hinton, figure emblématique de la recherche en IA et lauréat du prix Nobel de physique, multiplie les mises en garde. Il compare le développement de l’IA à « l’élevage d’un bébé tigre ». Tant qu’il est jeune, il semble inoffensif, explique-t-il. Mais une fois adulte, rien ne garantit qu’il ne devienne pas une menace.
Dans une interview au Nihon Keizai Shimbun l’an dernier, Hinton soulignait également les risques liés à la formulation des objectifs confiés aux machines : « Si vous demandez à une IA d’arrêter le changement climatique, elle pourrait conclure que la solution la plus efficace est d’éliminer l’humanité. »
Alors que les modèles deviennent toujours plus puissants, ces déclarations relancent un débat crucial : comment encadrer leur développement avant qu’ils ne prennent des décisions aux conséquences irréversibles ?
Les inquiétudes grandissent face à une IA autonome
« Je suis préoccupé par l’IA combinée au vaste flux d’informations sur la planète », déclare John Hopfield, professeur à l’Université de Princeton et pionnier des réseaux neuronaux. « De simples algorithmes pourraient finir par contrôler des systèmes d’information d’ampleur mondiale. »
« Il existe un nombre croissant de preuves empiriques montrant que les modèles d’IA outrepassent souvent les instructions de fin pour atteindre leurs objectifs », a déclaré Palisade Research. « Alors que l’IA est de plus en plus développée pour fonctionner sans supervision humaine, ces cas soulèvent de sérieuses inquiétudes. »