ChatGPT vient de passer un examen de gestion de niveau universitaire. Malgré des erreurs de calcul étonnantes, l’intelligence artificielle a réussi l’épreuve.
Christian Terwiesch, professeur de commerce à la Wharton School of Business en Pennsylvanie, a voulu pousser ChatGPT, le chatbot intelligent d’OpenAI, dans ses retranchements. Pour tester les limites de l’intelligence artificielle, l’universitaire a décidé de lui faire passer un examen de gestion. Au terme de cet examen, les étudiants peuvent obtenir un Master of Business Administration (MBA). Il s’agit d’un diplôme d’études supérieures offrant des perspectives d’emploi dans les domaines du marketing, de la finance et de la gestion de ressources humaines.
À lire aussi : « Il n’a rien de révolutionnaire » – Yann LeCun, pionnier français de l’IA, n’est pas impressionné par ChatGPT
Les excellentes explications de ChatGPT
Le professeur de commerce a consciencieusement posé toutes les questions de l’examen à ChatGPT… et l’intelligence artificielle ne s’en est pas trop mal sortie. D’après le rapport publié par Christian Terwiesch, le chatbot « fait un travail incroyable sur les questions de gestion des opérations de base et d’analyse des processus, y compris celles qui sont basées sur des études de cas ».
« Non seulement les réponses sont correctes, mais les explications sont excellentes », explique Christian Terwiesch dans un rapport détaillé.
Ayant accès à une immense base de données, l’intelligence artificielle a pu générer des réponses appropriées, en dépit d’énoncés parfois complexes. Le chatbot est doué pour agréger un ensemble de données et en produire un résumé cohérent. On notera que certaines questions font plusieurs dizaines de lignes et nécessitent des connaissances pointues. À certaines de ces questions, ChatGPT a même reçu la note maximale grâce à des réponses détaillées et bien structurées.
De surprenantes erreurs de calcul
En parallèle, ChatGPT a également commis de grossières erreurs de calcul au cours de l’examen. Au vu des réponses pertinentes de l’IA, le professeur de Wharton s’est étonné des « erreurs surprenantes dans des calculs relativement simples, du niveau des mathématiques de 6e année ». Au premier abord, la plupart des opérations mathématiques semblaient logiques et plausibles. Après un examen plus minutieux, des erreurs de raisonnement sautent aux yeux.
De plus, le chatbot s’est montré moins compétent « aux questions d’analyse de processus plus avancées ». Les énoncés évoquant « des flux de processus avec plusieurs produits » et des problèmes concernant « la variabilité de la demande » ont posé des problèmes à ChatGPT. Les problèmes avec des effets de causalité plus complexes ont aussi mis à mal l’intelligence du chatbot.
Dans le cadre de l’expérimentation, le professeur s’est permis d’offrir ponctuellement un indice à ChatGPT, comme il le ferait lors d’un examen oral avec un étudiant. Grâce aux indices fournis, l’IA est promptement parvenue à revoir sa copie et à corriger ses approximations :
« Dans les cas où il n’a pas initialement réussi à faire correspondre le problème avec la bonne méthode de solution, Chat GPT3 a pu se corriger après avoir reçu un indice approprié d’un expert humain ».
Le constat de Christian Terwiesch confirme notre propre avis au sujet de ChatGPT. Dans son itération actuelle, le chatbot d’OpenAI est un assistant précieux pour faciliter certaines tâches, ou débloquer certains problèmes intellectuels. Cependant, il ne se substitue pas encore entièrement à l’intellect humain. C’est aussi le cas du DesignerBot, l’IA qui crée des PowerPoint à votre place.
Comme le souligne le professeur de commerce, l’IA est capable d’évoluer rapidement grâce aux indices donnés. Peu après avoir eu besoin d’un coup de pouce pour résoudre un problème, ChatGPT est instantanément parvenu à générer la réponse idéale, sans avoir besoin d’un indice. En quelques interactions, le chatbot aurait évolué :
« Soit il est capable d’apprendre des échanges passés, soit j’ai juste eu de la chance ».
Un examen réussi
Après avoir analysé la copie rendue par ChatGPT, le professeur lui a accordé la note B. Grâce à ce score, un étudiant peut éviter de participer au cours de gestion des opérations, généralement obligatoire au sein de l’établissement. Malgré des erreurs, le chatbot a démontré une compréhension suffisante de la matière. Il a donc réussi l’examen, mais sans parvenir à des résultats mirobolants :
« Nous avons permis aux étudiants de renoncer à ce cours s’ils pouvaient démontrer leur maîtrise du contenu lors d’un examen de renonciation. La performance de Chat GPT3 signalée ci-dessus aurait été suffisante pour réussir l’examen de renonciation ».
Par ailleurs, l’enseignant s’est amusé à concevoir des questions d’examen à l’aide de ChatGPT. Là encore, le chatbot s’est montré très efficace. Il a même inclus des petits traits d’humour dans les énoncés, à la manière d’un être humain.
Christian Terwiesch a néanmoins identifié deux lacunes dans les interrogations. Pour une raison inconnue, ChatGPT a jugé bon d’inclure des données dispensables et anecdotiques dans les questions. Ces éléments inutiles peuvent perturber l’étudiant chargé de trouver une solution à un défi mathématique. Dans d’autres cas, l’IA a négligé des informations essentielles. De facto, il est impossible de répondre au problème. Là encore, l’opération a besoin de la supervision d’une intelligence humaine.
Source :
Wharton