GPT-4o rappelé à l’ordre par OpenAI pour flagornerie

À la fin de la semaine dernière, OpenAI a mis à jour GPT-4o, le modèle principal de son chatbot, ChatGPT. Mais il fait déjà l’objet d’un rappel.

Mardi, le PDG Sam Altman a annoncé via un billet X qu’OpenAI « a commencé à annuler » la mise à jour en raison des plaintes des utilisateurs concernant ses réponses. Dans certains exemples, réagissant à des questions de test quelque peu ridicules, ChatGPT a encouragé des choix médicaux risqués, un comportement grossier et antisocial, et la valorisation d’un grille-pain par rapport à la vie animale.

(Divulgation : Ziff Davis, la société mère de ZDNET, a intenté une action en justice en avril 2025 contre OpenAI, alléguant qu’elle violait les droits d’auteur de Ziff Davis dans la formation et l’exploitation de ses systèmes d’IA).

Trop flatteur

« La mise à jour que nous avons supprimée était trop flatteuse ou agréable – souvent décrite comme flagorneuse », a déclaré OpenAI dans un billet de blog à ce sujet. La flagornerie dans les modèles d’IA peut se produire lorsque des commentaires humains sont utilisés pour les former, en particulier lors de l’opération de fine tuning. L’entreprise a expliqué que la mise à jour avait pour but d' »améliorer la personnalité par défaut du modèle afin de le rendre plus intuitif et plus efficace ».

Cependant, OpenAI a admis qu’elle s’était « trop concentrée sur le feedback à court terme et n’avait pas entièrement pris en compte la manière dont les interactions des utilisateurs avec ChatGPT évoluent au fil du temps ». Cela a conduit GPT-4o à répondre de manière « exagérément positive, mais peu sincère ».

Des sources internes à OpenAI ont récemment indiqué que l’entreprise avait réduit ses délais de test de sécurité pour les nouveaux modèles. On ne sait pas exactement quel impact direct cela a eu ici. Ni si les changements dans les tests ont eu lieu avant ou après la mise à jour de GPT-4o.

Au-delà de l’inconfort de l’interaction, la flagornerie peut être dangereuse. Par exemple si les chatbots encouragent aveuglément les opinions haineuses ou violentes des utilisateurs ou les actions qu’ils souhaitent entreprendre – dont certaines seraient normalement abandonnées sur la base des garde-fous d’OpenAI. Dans son billet de blog, OpenAI se concentre principalement sur l’impact de la flagornerie sur la satisfaction des utilisateurs plutôt que sur les problèmes de sécurité potentiels.

Mise à jour inversée

Dans son billet, Altman note que la mise à jour est complètement arrêtée pour les utilisateurs gratuits de ChatGPT. Et qu’OpenAI mettra à nouveau à jour le modèle pour les utilisateurs payants une fois un fix effectué.

« Nous travaillons sur des correctifs supplémentaires pour la personnalité du modèle », a-t-il ajouté. Sur son blog, OpenAI a expliqué qu’il s’agissait notamment :

« D’affiner les techniques de formation de base et les prompts du système »
D’ajouter des fonctions de personnalisation pour un plus grand contrôle de l’utilisateur
De réévaluer la manière dont elle évalue le retour d’information

À l’avenir, « les utilisateurs pourront donner leur avis en temps réel pour influencer directement leurs interactions et choisir parmi plusieurs personnalités par défaut », a ajouté l’entreprise.

Source link

Trop flatteur

Mise à jour inversée

Laisser un commentaire Annuler la réponse