À la fin de la semaine dernière, OpenAI a mis à jour GPT-4o, le modèle principal de son chatbot, ChatGPT. Mais il fait déjà l’objet d’un rappel.
Mardi, le PDG Sam Altman a annoncé via un billet X qu’OpenAI « a commencé à annuler » la mise à jour en raison des plaintes des utilisateurs concernant ses réponses. Dans certains exemples, réagissant à des questions de test quelque peu ridicules, ChatGPT a encouragé des choix médicaux risqués, un comportement grossier et antisocial, et la valorisation d’un grille-pain par rapport à la vie animale.
(Divulgation : Ziff Davis, la société mère de ZDNET, a intenté une action en justice en avril 2025 contre OpenAI, alléguant qu’elle violait les droits d’auteur de Ziff Davis dans la formation et l’exploitation de ses systèmes d’IA).
Trop flatteur
« La mise à jour que nous avons supprimée était trop flatteuse ou agréable – souvent décrite comme flagorneuse », a déclaré OpenAI dans un billet de blog à ce sujet. La flagornerie dans les modèles d’IA peut se produire lorsque des commentaires humains sont utilisés pour les former, en particulier lors de l’opération de fine tuning. L’entreprise a expliqué que la mise à jour avait pour but d' »améliorer la personnalité par défaut du modèle afin de le rendre plus intuitif et plus efficace ».
Cependant, OpenAI a admis qu’elle s’était « trop concentrée sur le feedback à court terme et n’avait pas entièrement pris en compte la manière dont les interactions des utilisateurs avec ChatGPT évoluent au fil du temps ». Cela a conduit GPT-4o à répondre de manière « exagérément positive, mais peu sincère ».
Des sources internes à OpenAI ont récemment indiqué que l’entreprise avait réduit ses délais de test de sécurité pour les nouveaux modèles. On ne sait pas exactement quel impact direct cela a eu ici. Ni si les changements dans les tests ont eu lieu avant ou après la mise à jour de GPT-4o.
Au-delà de l’inconfort de l’interaction, la flagornerie peut être dangereuse. Par exemple si les chatbots encouragent aveuglément les opinions haineuses ou violentes des utilisateurs ou les actions qu’ils souhaitent entreprendre – dont certaines seraient normalement abandonnées sur la base des garde-fous d’OpenAI. Dans son billet de blog, OpenAI se concentre principalement sur l’impact de la flagornerie sur la satisfaction des utilisateurs plutôt que sur les problèmes de sécurité potentiels.
Mise à jour inversée
Dans son billet, Altman note que la mise à jour est complètement arrêtée pour les utilisateurs gratuits de ChatGPT. Et qu’OpenAI mettra à nouveau à jour le modèle pour les utilisateurs payants une fois un fix effectué.
« Nous travaillons sur des correctifs supplémentaires pour la personnalité du modèle », a-t-il ajouté. Sur son blog, OpenAI a expliqué qu’il s’agissait notamment :
- « D’affiner les techniques de formation de base et les prompts du système »
- D’ajouter des fonctions de personnalisation pour un plus grand contrôle de l’utilisateur
- De réévaluer la manière dont elle évalue le retour d’information
À l’avenir, « les utilisateurs pourront donner leur avis en temps réel pour influencer directement leurs interactions et choisir parmi plusieurs personnalités par défaut », a ajouté l’entreprise.