OpenAI dvoile CriticGPT, un nouveau modle d’IA entran pour critiquer les rponses de GPT-4 Le modle dtecte les bogues dans les codes gnrs par ChatGPT, amliorant ainsi la surveillance humaine de l’IA

une faille de scurit expose 24 adresses e-mail malgr les dispositions prises par OpenAI, tandis que des experts alertent sur le risque de cration de jardins clos d'IA



Les chercheurs d’OpenAI viennent de dvoiler CriticGPT, un nouveau modle d’IA conu pour identifier les erreurs dans le code gnr par GPT-4. Ce modle vise amliorer le processus permettant aux systmes d’IA de se comporter de la manire souhaite par les humains (appel galement « alignement ») grce l’apprentissage par renforcement partir de rtroaction humaine (RLHF), qui aide les rviseurs humains rendre les sorties des grands modles de langage (LLM) plus prcises.

OpenAI est une organisation amricaine de recherche en intelligence artificielle (IA) fonde en dcembre 2015 et dont le sige se trouve San Francisco. Sa mission est de dvelopper une intelligence artificielle gnrale « sre et bnfique », qu’elle dfinit comme « des systmes hautement autonomes qui surpassent les humains dans la plupart des tches conomiquement utiles ». En tant qu’organisation de premier plan dans l’essor actuel de l’IA, OpenAI a dvelopp plusieurs grands modles de langage, des modles avancs de gnration d’images et, prcdemment, des modles en code source libre. Le lancement de ChatGPT par OpenAI est considr comme le catalyseur d’un intrt gnralis pour l’IA.

Generative Pre-trained Transformer 4 (GPT-4) est un grand modle de langage multimodal cr par OpenAI, et le quatrime de sa srie de modles de base GPT. Il a t lanc le 14 mars 2023 et mis la disposition du public via le chatbot payant ChatGPT Plus, via l’API d’OpenAI et via le chatbot gratuit Microsoft Copilot. En tant que modle bas sur un transformateur, GPT-4 utilise un paradigme dans lequel un pr-entranement utilisant la fois des donnes publiques et des « donnes sous licence de fournisseurs tiers » est utilis pour prdire le prochain jeton. Aprs cette tape, le modle a t affin avec un retour d’apprentissage par renforcement de la part des humains et de l’IA pour l’alignement humain et la conformit la politique.

OpenAI a form un modle, bas sur GPT-4, appel CriticGPT pour dtecter les erreurs dans le code de sortie de ChatGPT. Ils ont constat que lorsque les gens reoivent l’aide de CriticGPT pour rviser le code de ChatGPT, ils obtiennent de meilleurs rsultats que ceux qui ne reoivent pas d’aide dans 60 % des cas. OpenAI commence intgrer des modles de type CriticGPT dans son pipeline d’tiquetage RLHF, en fournissant ses formateurs une assistance IA explicite. Il s’agit d’une tape vers la possibilit d’valuer les rsultats de systmes d’IA avancs qui peuvent tre difficiles valuer sans de meilleurs outils.

La srie de modles GPT-4, qui alimente ChatGPT, est conue pour tre utile et interactive grce l' »apprentissage par renforcement partir de rtroaction humaine » (Reinforcement Learning from Human Feedback – RLHF). L’un des lments cls du RLHF est la collecte de comparaisons dans lesquelles des personnes, appeles entraneurs/formateurs d’IA, valuent diffrentes rponses de ChatGPT les unes par rapport aux autres.

Au fur et mesure qu’OpenAI progresse dans le raisonnement et le modle de comportement, ChatGPT devient plus prcis et ses erreurs deviennent plus subtiles. Il peut donc tre difficile pour les entraneurs d’IA de reprer les inexactitudes lorsqu’elles se produisent, ce qui complique considrablement la tche de comparaison qui est la base du RLHF. Il s’agit l d’une limite fondamentale du RLHF, qui pourrait rendre de plus en plus difficile l’alignement des modles mesure qu’ils deviennent plus comptents que toute personne susceptible de fournir un retour d’information.

Pour relever ce dfi, OpenAI a form CriticGPT pour rdiger des critiques qui mettent en vidence les inexactitudes dans les rponses de ChatGPT.

Les suggestions de CriticGPT ne sont pas toujours correctes, mais il est possible de constater qu’elles peuvent aider les formateurs dtecter beaucoup plus de problmes avec les rponses crites par le modle qu’ils ne le feraient sans l’aide de l’IA. En outre, lorsque des personnes utilisent CriticGPT, l’IA renforce leurs comptences, ce qui se traduit par des critiques plus compltes que lorsque les personnes travaillent seules, et moins de bogues hallucins sont produits que lorsque le modle travaille seul. Lors des expriences menes par OpenAI, un deuxime entraneur alatoire a prfr les critiques de l’quipe Human+CriticGPT celles d’une personne non assiste dans plus de 60 % des cas.

Mthodes

CriticGPT a galement t entran avec le RLHF, de la mme manire que ChatGPT. Mais contrairement ChatGPT, CriticGPT a examin un grand nombre d’entres contenant des erreurs que le modle a ensuite d critiquer. OpenAI a demand des entraneurs d’IA d’insrer manuellement ces erreurs dans le code crit par ChatGPT et d’crire ensuite des commentaires d’exemple comme s’ils avaient dtect le bogue qu’ils venaient d’insrer. La mme personne a ensuite compar plusieurs critiques du code modifi afin de pouvoir facilement dterminer si une critique avait dtect le bogue qu’elle avait insr.

Dans ses expriences, OpenAI a tudi la fois si CriticGPT pouvait dtecter les bogues insrs et les bogues « naturels » de ChatGPT qu’un formateur prcdent avait dtects. OpenAI a constat que les formateurs prfraient les critiques de CriticGPT aux critiques de ChatGPT dans 63 % des cas de bogues naturels, en partie parce que la nouvelle critique produit moins de « nitpicks » (petites plaintes qui ne sont pas utiles) et hallucine moins souvent les problmes.

OpenAI a galement constat qu’il est possible de gnrer des critiques plus longues et plus compltes en utilisant une recherche supplmentaire en temps de test par rapport au modle de rcompense de la critique. Cette procdure de recherche permet d’quilibrer l’agressivit de la recherche de problmes dans le code et de configurer un compromis prcision-rappel entre les hallucinations et le nombre de bogues dtects. Cela signifie que le systme peut gnrer des critiques qui sont aussi utiles que possible pour le RLHF.

Limites

  • OpenAI a entran CriticGPT sur des rponses de ChatGPT qui sont assez courtes. Pour superviser les agents du futur, des mthodes devront tre dveloppes afin d’aider les formateurs comprendre des tches longues et complexes.
  • Les modles ont encore des hallucinations et les formateurs font parfois des erreurs d’tiquetage aprs avoir vu ces hallucinations.
  • Parfois, les erreurs relles peuvent tre rparties sur plusieurs parties d’une rponse. Le travail d’OpenAI se concentre sur les erreurs qui peuvent tre signales en un seul endroit, mais l’avenir, OpenAI envisagera galement de s’attaquer aux erreurs disperses.
  • CriticGPT ne peut pas tout faire : si une tche ou une rponse est extrmement complexe, mme un expert avec l’aide d’un modle peut ne pas tre en mesure de l’valuer correctement.

Prochaines tapes

Afin d’aligner des systmes d’IA de plus en plus complexes, OpenAI aura besoin de meilleurs outils. Dans cette recherche sur CriticGPT, OpenAI a constat que l’application du RLHF au GPT-4 est prometteuse pour aider les humains produire de meilleures donnes RLHF pour GPT-4. L’entreprise prvoit ainsi d’tendre ce travail et de le mettre en pratique.

Source : OpenAI

Et vous ?

Quel est votre avis sur le sujet ?

Pensez-vous que CriticGPT est un outil utile et intressant, ou plutt un gadget superflu supplmentaire ?

Voir aussi :

ChatGPT gnre un code informatique peu sr, mais ne vous le dira pas moins que vous ne le lui demandiez, les experts mettent en garde contre les risques d’une surconfiance en ChatGPT

L’erreur coteuse de ChatGPT : une startup raconte comment une ligne de code gnr par l’IA a entran 10 000 dollars de perte. Malgr les avances de l’IA, la vigilance humaine reste indispensable

Une tude affirme que 52 % des rponses de ChatGPT aux questions de codage informatique sont incorrectes et 77 % sont verbeuses, mais les rponses du chatbot sont « convaincantes »



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.