Les grands modèles de langage (LLM) et autres formes d’intelligence artificielle générative s’améliorent régulièrement en matière d’autocorrection, ce qui ouvre la voie à de nouvelles tâches dont elles sont capables, notamment l’IA agentique.
« Il devient très bon en matière d’autocorrection et d’auto-raisonnement », a déclaré Michael Gerstenhaber, responsable des technologies API chez Anthropic, qui développe la gamme de LLM Claude.
« Tous les deux mois, nous sortons un nouveau modèle qui étend ce que les LLM peuvent faire », ajoute-il. « Ce qui est le plus intéressant dans ce secteur, c’est que de nouveaux cas d’utilisation émergent à chaque révision de modèle. »
Les modèles les plus récents incluent la planification, comme la manière d’effectuer des tâches sur un ordinateur comme le ferait une personne ; par exemple, commander une pizza en ligne. « La planification des étapes interstitielles est quelque chose qui n’était pas possible hier et qui l’est aujourd’hui », explique Michael Gerstenhaber.
Les arguments des sceptiques
Le point de vue de Micheal Gerstenhaber vont à l’encontre des arguments des sceptiques qui affirment que l’IA générative, et l’IA en général, se heurtent à un plafond, c’est-à-dire que le rendement de nouvelle génération de modèles est de plus en plus faible.
Gary Marcus, spécialiste de l’IA, a prévenu en 2022 que le simple fait de créer des modèles d’IA comportant de plus en plus de paramètres ne permettrait pas d’obtenir des améliorations équivalentes à l’augmentation de la taille des modèles.
Pour Micheal Gerstenhaber, Anthropic a repoussé les limites de ce qui peut être mesuré par les benchmarks actuels. « Même s’il semble que les progrès s’amenuisent d’une certaine manière, c’est parce que nous créons de nouvelles classes [de fonctionnalités], mais nous avons saturé les points de référence et la capacité à effectuer des tâches plus anciennes », explique Michael Gerstenhaber. En d’autres termes, il est de plus en plus difficile de mesurer ce que les modèles actuels d’IA générative peuvent faire.
Et d’ajouter : « L’une des raisons pour lesquelles nous ne pensons pas nécessairement que nous nous heurtons à un plafond en matière de planification et de raisonnement est que nous sommes en train d’apprendre comment les tâches de planification et de raisonnement doivent être structurées pour que les modèles puissent s’adapter à une grande variété de nouveaux environnements qu’ils n’ont pas encore essayé de franchir. »
Un apprentissage en temps réel
« Nous n’en sommes qu’au tout début », poursuit Michael Gerstenhaber. « Nous apprenons des développeurs d’applications ce qu’ils essaient de faire et ce qu’il [le modèle linguistique] ne fait pas bien, et nous pouvons l’intégrer dans le LM ».
Selon lui, cette découverte est en partie liée à la rapidité de la recherche fondamentale chez Anthropic et dans une autre partie liée à l’apprentissage en écoutant « ce que l’industrie nous dit qu’elle attend de nous, et notre capacité à nous adapter à cela, nous apprenons beaucoup en temps réel ».