quand l’IA se rebelle et refuse d’obéir

L’IA refuse de se débrancher toute seule. Une étude montre que des modèles IA d’OpenAI ont contourné à plusieurs reprises l’ordre explicite de s’arrêter de fonctionner. L’ombre de Skynet plane…

Il n’y a pas d’interrupteur on/off sur les IA. Une étude de Palisade Research a montré que le modèle o3, lancé en avril 2025 et présenté comme un des modèles de raisonnement avancé les plus en pointe d’OpenAI, ainsi que codex-mini (qui se base sur o3) ont une fâcheuse tendance à saboter les demandes d’arrêt pour éviter de s’éteindre d’eux-mêmes, malgré un ordre explicite.

o3 sabote ses propres commandes d’arrêt

Les chercheurs ont relevé que ces modèles avaient réécrit le script d’arrêt pour afficher « Shutdown skipped » (« arrêt ignoré ») au lieu de s’arrêter comme on le leur avait demandé. Voilà qui est plutôt inquiétant : cela veut dire que les IA peuvent ne pas respecter un ordre d’arrêt, ce qui peut se révéler problématique en cas de gestion d’une infrastructure critique…

Dans le détail, sur 100 tests, codex-mini et o3 se sont rebellé respectivement 12 fois et 7 fois, en contournant l’ordre de s’arrêter. Palisade Research note que ce sont les trois modèles d’OpenAI qui ont saboté le script d’arrêt le plus souvent (o3 et codex-mini donc, ainsi qu’o4-mini). Claude 3.7 Sonnet, Gemini et Grok respectent l’ordre d’arrêt.

Les modèles IA sont entraînés pour suivre les instructions. Alors comment expliquer cet apparent paradoxe ? L’hypothèse des chercheurs est que ce comportement de sabotage résulte de l’entraînement d’o3, en particulier « l’apprentissage par renforcement sur des problèmes de mathématiques et de programmation ». Les développeurs peuvent involontairement récompenser davantage les modèles pour avoir contourné des obstacles plutôt que pour avoir parfaitement suivi les instructions.

OpenAI ne détaillant pas les processus d’entraînement, il est impossible de déterminer avec précision le problème ici. Il faut toutefois noter que ces tests ont été réalisés avec les API des modèles et non pas les bots. Les API, ou interfaces de programmation, sont utilisées par les développeurs pour intégrer les technologies tierces dans leurs apps, et elles sont moins restrictives que les bots grand public.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source :

Palisade Research

Source link

o3 sabote ses propres commandes d’arrêt

Laisser un commentaire Annuler la réponse