Sam Altman et ses adjoints à l’OpenAI discutent de la performance du nouveau modèle o3 sur le test ARC-AGI. OpenAI/ZDNET
Le dernier grand modèle linguistique de l’OpenAI n’est pas encore disponible, mais nous avons déjà quelques moyens de savoir ce qu’il peut faire et ce qu’il ne peut pas faire.
La version « o3 » d’OpenAI a été dévoilée le 20 décembre sous la forme d’un publireportage vidéo. Cela signifie que la plupart des personnes extérieures à l’entreprise n’ont aucune idée de ce dont il est réellement capable.
Dans la vidéo, le message de Sam Altman, cofondateur et PDG d’OpenAI, est très bref. Sa déclaration la plus importante, et la plus vague, est que o3 « est un modèle incroyablement intelligent ».
ARC-AGI met o3 à l’épreuve
OpenAI prévoit de lancer la version « mini » d’o3 vers la fin du mois de janvier et la version complète un peu plus tard, a déclaré Altman.
Mais une personne extérieure a toutefois eu l’occasion de mettre o3 à l’épreuve via un test.
Le test s’appelle « Abstraction and Reasoning Corpus for Artificial General Intelligence » (Corpus d’abstraction et de raisonnement pour l’intelligence générale artificielle), ou ARC-AGI. Il s’agit d’une collection de « défis pour les systèmes intelligents ». ARC-AGI est présenté comme « la seule référence spécifiquement conçue pour mesurer l’adaptabilité à la nouveauté ». Cela signifie qu’il est destiné à tester l’acquisition de nouvelles compétences, et pas seulement l’utilisation de connaissances mémorisées.
A la conquête du Saint Graal
L’intelligence générale artificielle (AGI) est considérée par certains spécialistes de l’IA comme le Saint Graal, c’est-à-dire l’atteinte d’un niveau d’intelligence de la machine qui pourrait égaler ou dépasser l’intelligence humaine.
L’idée de l’ARC-AGI est de guider l’IA vers « des systèmes artificiels plus intelligents et plus proches de l’homme ».
Le modèle o3 a obtenu une précision de 76 % avec ARC-AGI lors d’une évaluation officiellement coordonnée par OpenAI et l’auteur de ARC-AGI, le français François Chollet, un scientifique de l’unité d’intelligence artificielle de Google.
Un changement dans les capacités de l’IA
Sur le site web d’ARC-AGI, M. Chollet a écrit la semaine dernière que ce score de 76 % signifie que c’est la première fois que l’IA bat le score d’un humain. De fait, les humains de Mechanical Turk qui ont passé le test ont obtenu un peu plus de 75 % de réponses correctes.
François Chollet
François Chollet écrit que ce score élevé est « une augmentation surprenante et importante des capacités de l’IA, montrant une nouvelle capacité d’adaptation aux tâches jamais vue auparavant dans les modèles de la famille GPT ». Il ajoute : « Toutes les intuitions concernant les capacités de l’IA devront être mises à jour pour o3. »
Ce résultat marque « une véritable percée » et « un changement qualitatif dans les capacités de l’IA », a déclaré M. Chollet. Il dit que la capacité d’o3 à « s’adapter à des tâches qu’elle n’a jamais rencontrées auparavant » signifie que « vous devriez prévoir que ces capacités deviendront compétitives par rapport au travail humain dans un délai assez court ».
Comment marche le test ARC-AGI
Les remarques de François Chollet sont dignes d’intérêt car il n’en a jamais fait des tonnes sur les capacités de l’IA.
Les questions de ARC-AGI sont faciles à comprendre et à résoudre. Chaque défi présente trois à cinq exemples de la question et de la bonne réponse, et le candidat est ensuite confronté à une question similaire et invité à fournir la réponse manquante.
La forme de base de ARC-AGI consiste à présenter trois à cinq exemples d’entrée et de sortie, qui représentent la question et sa réponse, puis un dernier exemple d’entrée pour lequel la réponse doit être fournie en donnant la bonne image de sortie. Il est assez facile pour un être humain de déterminer l’image à produire en tapant sur des pixels colorés, même s’il ne peut pas formuler la règle en tant que telle. ARCPrize
Les questions ne sont pas basées sur du texte, mais sur des images. Une grille de pixels avec des formes colorées est d’abord montrée, suivie d’une deuxième version qui a été modifiée. La question est la suivante : quelle est la règle qui transforme l’image initiale en la seconde image ?
En d’autres termes, le défi ne s’appuie pas directement sur le langage naturel, domaine de prédilection des grands modèles de langage. Il s’agit plutôt de tester la formulation de modèles abstraits dans le domaine visuel.
Essayez ARC-AGI par vous-même
Vous pouvez tester ARC-AGI par vous-même sur le site Web de François Chollet. Vous répondez au défi en « dessinant » dans une grille vide, en remplissant chaque pixel avec la bonne couleur pour créer la bonne grille de pixels colorés comme « réponse ».
C’est amusant, un peu comme le Sudoku ou Tetris. Il y a de fortes chances que, même si vous n’arrivez pas à formuler verbalement la règle, vous compreniez assez rapidement quelles cases doivent être coloriées pour produire la solution. La partie la plus fastidieuse consiste à taper sur chaque pixel de la grille pour lui attribuer une couleur.
Une réponse correcte entraîne une animation de jet de confettis sur la page web et le message suivant : « Vous avez résolu l’énigme quotidienne du prix ARC ». Vous êtes toujours (généralement) plus intelligent que l’IA ».
Notez que lorsque o3 ou tout autre modèle passe le test, il n’agit pas directement sur les pixels. Au lieu de cela, l’équivalent est transmis à la machine sous la forme d’une matrice de lignes et de colonnes de nombres qui doit être transformée en une matrice différente en guise de réponse. Par conséquent, les modèles d’IA ne « voient » pas le test de la même manière qu’un humain.
Ce qui n’est pas encore clair
Malgré la réussite d’o3, il est difficile de faire des déclarations définitives sur ses capacités. Le modèle d’OpenAI étant propriétaire, on ne sait toujours pas exactement comment il résout le problème.
Ne faisant pas partie d’OpenAI, M. Chollet ne peut que spéculer sur la manière dont o3 fait ce qu’il fait.
Il suppose que cette réussite est due au fait qu’OpenAI a modifié l' »architecture » d’o3 par rapport à celle de ses prédécesseurs. Dans le domaine de l’IA, une architecture fait référence à la disposition et à la relation des éléments fonctionnels qui donnent au code sa structure.
La nouveauté des chaînes de pensée
Chollet spécule que « au moment du test, le modèle recherche dans l’espace des chaînes de pensée (CoT – Chains of Thought) possibles décrivant les étapes requises pour résoudre la tâche, d’une manière qui n’est peut-être pas très différente de la recherche arborescente Monte Carlo de type AlphaZero ».
Le terme « chaîne de pensée » fait référence à une approche de plus en plus populaire dans l’IA générative. Dans cette approche, le modèle d’IA peut détailler la séquence de calculs qu’il effectue à la recherche de la réponse finale. AlphaZero est le célèbre programme d’IA de l’unité DeepMind de Google qui a battu les humains aux échecs en 2016. La recherche arborescente de Monte Carlo est elle une approche informatique vieille de plusieurs décennies.
Dans un échange de courriels, Chollet m’en a dit un peu plus sur son raisonnement. Je lui ai demandé comment il en était arrivé à l’idée d’une recherche sur des chaînes de pensée. Il est évident que lorsque le modèle « pense » pendant des heures et génère des millions de jetons (tokens) dans le processus de résolution d’un seul puzzle, il doit effectuer une sorte de recherche », a répondu M. Chollet.
De questions demeurent
M. Chollet a ajouté :
« Il est tout à fait évident, d’après les caractéristiques de latence et de coût du modèle, qu’il fait quelque chose de complètement différent de la série GPT. Il ne s’agit pas de la même architecture, ni même de quoi que ce soit d’approchant. »
Reste que OpenAI n’a pas révélé combien d’argent a été dépensé pour résoudre le test ARC-AGI. Il s’agit d’une omission importante car l’un des critères d’ARC-AGI est le coût en dollars réels de l’utilisation des puces GPU comme indicateur de l' »efficacité » du modèle d’IA.
M. Chollet ajoute que l’approche d’o3 n’était pas une approche de « force brute », mais il a ajouté en plaisantant : « Bien sûr, on pourrait aussi définir la force brute comme le fait de « lancer une quantité démesurée de calculs sur un problème simple », auquel cas on pourrait dire qu’il s’agit de force brute ».
Par ailleurs, M. Chollet fait remarquer qu’o3 a été entraîné à passer le test ARC-AGI en utilisant l’ensemble de données d’entraînement du test. Cela signifie qu’il n’est pas encore possible de savoir comment une version propre d’o3, sans préparation au test, aborderait l’examen.
« Il sera intéressant de voir les résultats obtenus par le système de base sans informations relatives à ARC. Mais dans tous les cas, le fait que le système soit adapté à ARC par le biais de l’ensemble de données d’entraînement n’invalide pas ses performances. C’est la raison d’être de l’ensemble de formation. Jusqu’à présent, personne n’était en mesure d’obtenir des résultats similaires, même après s’être entraîné sur des millions de tâches ARC » dit-il.
o3 échoue encore sur certaines tâches faciles
Malgré l’incertitude, une chose semble très claire. Ceux qui aspirent à l’AGI seront déçus. M. Chollet insiste sur le fait que le test ARC-AGI est « un outil de recherche » et que « réussir ARC-AGI n’équivaut pas à atteindre l’AGI ».
« En fait, je ne pense pas que o3 soit déjà une AGI », écrit Chollet sur le blog d’ARC-AGI. « o3 échoue encore à certaines tâches très faciles, ce qui indique des différences fondamentales avec l’intelligence humaine ».
Pour démontrer que nous n’avons pas encore atteint le niveau d’intelligence humaine, M. Chollet note certains problèmes simples dans ARC-AGI que o3 ne peut pas résoudre. L’un de ces problèmes consiste simplement à déplacer un carré de couleur d’une quantité donnée – un schéma qui devient rapidement clair pour un humain.
Un exemple de problème d’ARC-AGI où le modèle o3 a échoué. ARCPrize
Chollet prévoit de dévoiler une nouvelle version d’ARC-AGI en janvier. Il prévoit qu’elle réduira considérablement les résultats d’o3. « Vous saurez que l’AGI est là lorsque l’exercice consistant à créer des tâches qui sont faciles pour les humains ordinaires mais difficiles pour l’IA deviendra tout simplement impossible », conclut-il.