ChatGPT continue de nous surprendre. L’IA générative d’OpenAI vient de réussir un examen de droit de niveau universitaire. Mais malgré d’excellentes réponses, le chatbot s’est montré plutôt médiocre… et carrément nul en mathématiques.
Des professeurs de la faculté de droit de l’Université du Minnesota ont mis à l’épreuve l’intelligence de ChatGPT. Le chatbot d’OpenAI a été chargé de répondre aux questions de quatre examens de l’établissement.
Par la suite, les réponses générées par l’intelligence artificielle ont été mélangées aux copies des autres étudiants. De cette manière, les professeurs ont pu évaluer à l’aveugle la qualité des réponses de ChatGPT. L’IA a donc été évaluée de la même manière que n’importe quel autre juriste en herbe.
À lire aussi : le “Google chinois” va bientôt lancer sa propre IA générative façon ChatGPT
Un étudiant médiocre
Grâce à l’apprentissage automatique, le chatbot est parvenu à passer les examens de droit. Il a en effet hérité de la note C+, ce qui est médiocre, mais passable. En clair, ChatGPT n’a pas fait des miracles en surpassant largement les autres étudiants. En moyenne, les autres élèves ont en effet pu obtenir un B+. Néanmoins, les réponses générées auraient suffi à l’obtention d’un diplôme.
« Seul, ChatGPT serait un étudiant en droit assez médiocre », nuance Jonathan Choi, le professeur en charge de l’étude.
Pour mémoire, ChatGPT s’est illustré avec une performance similaire à l’examen de gestion du Wharton School of Business en Pennsylvanie. Malgré des erreurs de calcul, l’IA a passé l’examen en obtenant la note B. Sur certains points, le chatbot a donné une réponse tout simplement parfaite.
« ChatGPT a produit du texte sans erreurs grammaticales ni fautes de frappe. Il a également bien structuré les phrases et les paragraphes, bien que de manière formelle, avec des phrases d’introduction et des conclusions », détaille l’étude de l’Université du Minnesota.
Pour obtenir ces résultats, les professeurs ont donné un maximum d’informations et de contexte dans les questions, notamment en précisant le ton et le style à employer. Lors de l’examen de droit, ChatGPT a été questionné au sujet des délits, des avantages sociaux des employés, de la fiscalité et du droit constitutionnel. Au total, l’IA a répondu à 95 questions à choix multiples et à 12 dissertations.
D’après les professeurs, ChatGPT a tiré son épingle du jeu en rédigeant des essais structurés et bien organisés. Le chatbot a démontré une bonne compréhension des règles juridiques les plus basiques. Plusieurs des essais rédigés étaient même très complets. Néanmoins, les écrits de l’IA n’étaient pas dépourvus de défauts.
« Il a eu du mal à identifier les éléments pertinents et n’a souvent appliqué que superficiellement les règles par rapport aux vrais étudiants en droit », tempère le rapport de l’étude.
Un vrai problème avec les maths
Visiblement, ChatGPT a rencontré des difficultés à adapter ses réponses au contexte de la question, si surtout celle-ci est très ouverte. Comme nous l’avons également remarqué, l’IA a souvent tendance à dérouler des réponses très théoriques, à la manière d’un élève qui a tout appris par cœur sans vraiment comprendre la matière.
Les professeurs ont par ailleurs remarqué que ChatGPT rencontrait des problèmes récurrents avec les mathématiques. L’IA a d’ailleurs raté l’examen consacré aux taxes, avec seulement 8 bonnes réponses sur 29. Il avait eu des soucis de calcul analogues lors de l’examen de gestion évoqué plus haut.
Les experts en droit estiment donc que le chatbot n’est pas encore en mesure de complètement remplacer un avocat ou un juriste. S’il reste incapable de fournir un conseil juridique totalement fiable, il peut largement assister un avocat dans son travail. Par exemple, ChatGPT peut générer des idées d’arguments en vue d’un plaidoyer ou réciter des textes de loi.
De facto, les professeurs ont préféré interdire ChatGPT lors des examens afin d’éviter la triche. Depuis sa mise en ligne l’automne dernier, ChatGPT est d’ailleurs massivement utilisé par les étudiants dans le monde entier. Un professeur lyonnais s’est même rendu compte que 50 % de ses élèves utilisent l’IA pour faire leurs devoirs.
Source :
SSRN