Pionnier de l’apprentissage machine (machine learning), Terry Sejnowski en connaît un rayon sur l’IA et à toujours été un défenseur de son impact positif. En 2018, il a écrit dans le livre The Deep Learning Revolution que « l’IA vous rendra plus intelligent ».
Mais les choses évoluent rapidement. Depuis 2018, l’IA générative (Gen AI) a envahi nos vies. Dans son dernier ouvrage, ChatGPT and the Future of AI : The Deep Language Revolution, publié le mois dernier par MIT Press, Sejnowski passe en revue l’essor des grands modèles de langage (LLM) et conclut que « l’IA nous rend effectivement plus intelligents ».
Mais comment mesurer l’intelligence ? Qu’est-ce que cela signifie exactement ? « L’intelligence, c’est vraiment la résolution de problèmes », dit M. Sejnowski à ZDNET. Grâce à ChatGPT et à d’autres programmes de ce type, « je suis en mesure de me mettre à niveau plus rapidement. Mais cela me conduit aussi à des choses auxquelles je n’aurais jamais pensé ou que je n’aurais jamais explorées. Cela m’ouvre des portes ».
ChatGPT est une pelle
Il poursuit : « Réfléchissez à ce qu’est réellement ChatGPT. Tout le monde pense qu’il s’agit de parler comme un humain. La seule chose dont nous sommes sûrs, c’est que ce n’est pas un humain. Qu’est-ce que c’est ? C’est un outil qui ressemble à une pelle ».
Une pelle ? M. Sejnowski explique que les LLM nous aident à faire des choses mieux que nous ne pourrions le faire à mains nues. Selon lui, les écrivains s’améliorent avec ChatGPT car « il les aide à surmonter les blocages mentaux ».
Il a utilisé ChatGPT de manière intensive pour ses recherches. « Avec l’aide des LLM, ce livre a pris environ la moitié du temps qu’il m’avait fallu pour écrire mon précédent livre » dit-il.
« Nous sommes actuellement au stade de l’utilisation des outils »
Reste que son nouveau livre est très différent du précédent. En 2018, Sejnowski donnait une leçon d’histoire. Dans le nouveau Révolution, Sejnowski s’intéresse à la direction que prennent ces outils et à la manière dont ils modifient nos notions de pensée et la façon dont nous nous considérons.
« Nous sommes actuellement au stade de l’utilisation des outils. Nous apprenons à les utiliser et ils ne cessent de s’améliorer » dit M. Sejnowski. « ChatGPT pourrait faire beaucoup de choses, mais il ne peut pas les faire aussi bien que les meilleurs humains. Mais je peux vous dire qu’il le fait beaucoup mieux que la plupart des humains ».
De peur que vous ne pensiez que le livre est une lettre d’amour à ChatGPT, l’élément le plus profond du livre, qui occupe la plupart de ses pages, est une analyse de la façon dont l’IA générative affecte la science, et vice versa. L’IA révèle, par exemple, des aspects du cerveau aux neuroscientifiques, et les neurosciences ouvrent à leur tour de nouvelles possibilités pour l’IA, affirme-t-il, dans une sorte de cercle vertueux.
Le lien entre cerveau et IA
Cette observation est étayée par la longue carrière de M. Sejnowski dans les deux domaines. M. Sejnowski est titulaire de la chaire Francis Crick à l’Institut Salk d’études biologiques et professeur émérite à l’université de Californie à San Diego. Il a apporté des contributions fondamentales à l’IA d’aujourd’hui, mais a suivi une voie différente de celle de ses collègues spécialistes de l’IA.
M. Sejnowski a obtenu son doctorat en physique sous la direction de John Hopfield à Princeton dans les années 1970 et a ensuite beaucoup collaboré avec Geoffrey Hinton, deux personnes qui ont reçu cette année le prix Nobel de physique pour leurs travaux sur l’IA. Au début, Sejnowski s’est détourné de la construction de systèmes d’IA proprement dits pour s’intéresser aux neurosciences, car, a-t-il déclaré au ZDNET, « je voulais comprendre le fonctionnement du cerveau ».
De nombreux praticiens de l’IA estiment que le cerveau est beaucoup trop complexe pour que les réseaux neuronaux artificiels puissent progresser. Ils fuient donc la science du cerveau pour augmenter leurs chances professionnelles de publier des découvertes. Sejnowski, lui, est convaincu qu’il est sur le point de faire de grandes découvertes sur le cerveau grâce à l’IA.
Par exemple, le mécanisme sous-jacent des grands modèles de langage – la façon dont ils prédisent le mot suivant – est un mécanisme fondamental, applicable à la mémoire humaine.
Fenêtre contextuelle et ondes itinérantes
Tout ce que vous tapez dans GPT est codé sous la forme d’une longue chaîne de chiffres, connue sous le nom de « fenêtre contextuelle ». Cette fenêtre constitue la mémoire de travail utilisée pour faire des prédictions. OpenAI et d’autres sociétés rivalisent pour avoir des fenêtres contextuelles de plus en plus longues. Ce qui devrait se traduire par une plus grande capacité à prédire le mot, la phrase ou le paragraphe suivant.
Sejnowski pense qu’il se passe quelque chose de similaire dans le cerveau. « Comment le long vecteur d’entrée est-il mis en œuvre dans le cerveau ? Pas seulement à travers les phrases, mais à travers les paragraphes. Vous construisez dans votre cerveau une sorte d’histoire, comment cela se passe-t-il ? »
La réponse, selon Sejnowski, réside dans ce que l’on appelle les « ondes de déplacement », qui sont des vagues d’activité neuronale se déplaçant à travers le cortex cérébral. Ce phénomène a été « ignoré » par les neurosciences, a-t-il déclaré, car « personne n’avait la moindre idée de ce que pouvait être sa fonction ».
Dans le troisième tiers de Révolution, Sejnowski laisse entrevoir la possibilité que l’IA générative élucide enfin le mystère des ondes itinérantes. Il propose un excellent historique des LLM, qui va des premiers jours de l’IA au développement du transformateur, la forme la plus ancienne de modèle de langage. Les lecteurs intéressés trouveront beaucoup plus de détails sur les ondes progressives et les transformateurs dans un article scientifique pour la revue Trends in Neuroscience.
« Les LLM sont des Peter Pan qui vivent dans un Neverland numérique »
Parallèlement, l’intelligence artificielle continue d’évoluer en empruntant aux neurosciences, assure t-il. Dans son livre, il avance que les divers défauts des grands modèles de langage – les « hallucinations » et les résultats parfois absurdes – peuvent être considérés comme des stades de développement analogues au développement mental de l’être humain.
« Les LLM sont des Peter Pan qui n’ont jamais grandi et qui vivent dans un Neverland numérique », écrit M. Sejnowski. « Les LLM n’ont pas non plus atteint l’adolescence ; chez les humains, c’est avant que le cortex préfrontal n’arrive à maturité et ne freine les mauvais jugements ».
Le dernier tiers de l’ouvrage se concentre sur l’avenir de l’IA à partir de ce paradigme.
« Une direction à long terme pour l’IA est d’incorporer les LLM dans des systèmes plus vastes, écrit-il, de la même manière que le langage a été intégré dans des systèmes cérébraux qui ont évolué pendant des millions d’années pour le contrôle sensorimoteur, essentiel à la survie ».
Nouvelles mathématiques
Les LLM ont une structure sous-jacente que les chercheurs en IA commencent à peine à comprendre. Sejnowski prédit que l’élucidation de ce mystère pourrait conduire à de nouvelles formes de mathématiques qui, à leur tour, pourraient faire progresser l’IA de manière spectaculaire.
« Les LLM d’aujourd’hui sont l’équivalent des cathédrales construites au Moyen Âge par essais et erreurs », écrit-il dans Revolution. « À mesure que les LLM inspirent de nouvelles mathématiques, un nouveau cadre conceptuel réifiera des notions telles que la compréhension et l’intelligence ; leur progéniture sera l’équivalent de gratte-ciel ».
Sejnowski postule que des sciences et des mathématiques entièrement nouvelles pourraient voir le jour, tout comme les percées de Newton et d’autres ont changé notre compréhension de l’univers.
« Les physiciens ont élaboré des équations qui décrivent les propriétés mystérieuses de l’univers, telles que la gravité, la thermodynamique, l’électricité, le magnétisme et les particules élémentaires, et qui permettent de faire des prédictions précises à partir de quelques paramètres seulement, appelés constantes physiques », écrit M. Sejnowski.
« Au XXIe siècle, un nouveau domaine des mathématiques connaît plus de succès grâce aux algorithmes issus de l’informatique. Nous commençons à peine à explorer l’univers algorithmique, ce qui pourrait nécessiter un changement dans notre façon de concevoir la compréhension scientifique. »