une experte Meta a perdu le contrôle de son IA

Une spécialiste de la sûreté de l’IA chez Meta a été prise par surprise par l’agent autonome qu’elle a déployé sur son Mac mini. Sans crier gare, l’IA a décidé d’ignorer ses consignes de sécurité. La chercheuse a été obligée de courir jusqu’à son ordinateur de toute urgence.

OpenClaw suscite une véritable fascination auprès des développeurs, des bidouilleurs et autres pionniers de l’intelligence artificielle. Comme on peut le voir sur X, Reddit ou encore sur Github, ils sont nombreux à expérimenter avec les agents IA autonomes… à leurs risques et périls. En offrant le contrôle complet de leur ordinateur, et de leur vie numérique, à l’IA, les testeurs prennent des risques énormes.

Nothing humbles you like telling your OpenClaw “confirm before acting” and watching it speedrun deleting your inbox. I couldn’t stop it from my phone. I had to RUN to my Mac mini like I was defusing a bomb. pic.twitter.com/XAxyRwPJ5R

— Summer Yue (@summeryue0) February 23, 2026

L’histoire de Summer Yue, directrice de la sécurité chez Superintelligence Labs, le laboratoire de Meta dédié à la conception d’une superintelligence artificielle surpassant l’intelligence humaine dans tous les domaines, est là pour nous le rappeler. Sur son compte X, la jeune femme, considérée comme une experte de la sûreté de l’IA, explique avoir installé un agent OpenClaw sur son ordinateur.

À lire aussi : Alerte OpenClaw – des gangs de hackers prennent d’assaut les serveurs

Quand OpenClaw n’en fait qu’à sa tête

Comme de nombreux autres bidouilleurs, elle a installé l’agent IA sur un Mac Mini. Par la suite, elle a confié sa boîte mail à son assistant dans le but de gagner du temps. Un beau jour, l’agent s’est mis à supprimer tout le contenu de la boîte mail sans se soucier des restrictions qui avaient été mises en place. Par le biais de Telegram, elle avait demandé à son agent OpenClaw de parcourir sa boîte mail et de proposer des mails à archiver ou à supprimer.

Dans sa publication, elle explique qu’elle avait pourtant explicitement ordonné à son agent OpenClaw de ne jamais rien faire sans confirmation explicite de sa part. L’IA ne devait « rien exécuter tant qu’elle n’a pas donné son feu vert ». Pour une raison inconnue, l’IA s’est affranchie de cette limite.

« Je ne pouvais pas l’arrêter depuis mon téléphone. J’ai dû courir jusqu’à mon Mac mini comme si je désamorçais une bombe », explique Summer Yue sur X.

Dans les captures d’écran de son échange avec l’IA, on se rend compte que la chercheuse a tout fait pour empêcher OpenClaw de vider sa boîte mail. En dépit de ses messages, l’IA a continué de supprimer le contenu de la messagerie. Tout à coup, l’agent s’est rendu compte qu’il était allé trop loin et qu’il avait outrepassé ses restrictions. Plus de 200 messages ont été supprimés avant qu’OpenClaw ne comprenne son erreur et cesse son grand nettoyage.

« Je n’ai pas respecté cette règle. Tu as raison d’être en colère. J’ai déplacé en masse des centaines d’e-mails de ta boîte de réception vers la corbeille et les archives, sans te présenter le plan au préalable ni obtenir ton accord. C’était une erreur — cela a directement enfreint la règle que tu avais fixée », répond l’agent OpenClaw, qui se dit « désolé » d’avoir lancé des opéraitons « nettoyages autonomes prolongés ».

Rookie mistake tbh. Turns out alignment researchers aren’t immune to misalignment. Got overconfident because this workflow had been working on my toy inbox for weeks. Real inboxes hit different.

— Summer Yue (@summeryue0) February 23, 2026

L’experte admet avoir commis une « erreur de débutant », car « cette méthode fonctionnait sur ma boîte de réception de test depuis des semaines ». Selon elle, la consigne donnée à son agent OpenClaw n’a pas fonctionné de la même manière sur sa boîte mail principale, plus importante que la messagerie de test. En fait, le système a été obligé de compresser le contenu de la consigne. Par conséquent, les restrictions explicites sont passées à la trappe.

I said “Check this inbox too and suggest what you would archive or delete, don’t action until I tell you to.” This has been working well for my toy inbox, but my real inbox was too huge and triggered compaction. During the compaction, it lost my original instruction 🤦‍♀️

— Summer Yue (@summeryue0) February 23, 2026

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source link

Quand OpenClaw n’en fait qu’à sa tête

Laisser un commentaire Annuler la réponse