La relation entre neurosciences et intelligence artificielle (IA) a toujours été très riche, la biologie inspirant des systèmes artificiels, à leur tour utilisés pour modéliser la première. La vision du système nerveux central comme un ensemble discret de neurones interconnectés dans lequel l’information se propage sous la forme d’impulsions électriques est à l’origine des premiers réseaux de neurones artificiels.
Conçus comme des modèles théoriques de systèmes biologiques, le perceptron de Rosenblatt (1957) et le néocognitron de Fukushima (1980) modélisent la perception visuelle chez l’être humain par une séquence d’opérations mathématiques très simples, dont les paramètres sont ajustés automatiquement par un processus d’apprentissage non supervisé (encore primitif) à l’issue duquel le réseau peut différencier deux chiffres après en avoir vu un nombre suffisant d’exemples.
Rosenblatt propose également un algorithme pour le perceptron, dans le cas supervisé où l’identité des chiffres est disponible pendant l’apprentissage, mais les véritables succès pratiques se feront attendre jusqu’aux années 1980 et l’invention des réseaux convolutifs par LeCun et ses collègues. A quelques détails près, leur architecture est la même que celle du néocognitron, mais c’est la méthode d’entraînement supervisé du réseau qui a changé : la technique de rétropropagation inventée entre-temps permet en effet de minimiser efficacement la différence entre réponse réelle et réponse attendue. Ils conduiront, vingt ans plus tard, à la révolution de l’apprentissage profond.
Avancées récentes
Avec le recul, l’avancée cruciale des réseaux de neurones artificiels, déjà en germe dans les perceptrons, est leur capacité à apprendre la représentation des données (images, texte…) qu’ils manipulent, alors que celle-ci est définie « à la main » par un spécialiste en reconnaissance des formes « classique », l’apprentissage étant limité à l’ajustement des paramètres permettant de séparer les chiffres, par exemple.
Malgré les succès retentissants de l’apprentissage profond, le cadre supervisé nécessite des campagnes d’annotation manuelle coûteuses et, paradoxalement, il est peu probable qu’il joue un rôle primordial dans la perception visuelle biologique (qui enseigne à une chèvre à reconnaître l’herbe à partir d’exemples ?). Les grands modèles de langue de l’IA générative moderne sont encore plus gourmands en données mais tirent parti de plusieurs avancées récentes : l’apprentissage autosupervisé permet désormais d’apprendre leurs paramètres en exploitant la cohérence interne des données pour entraîner la machine à prédire des mots, voire des phrases entières, masqués dans le texte, ce qui permet l’exploitation de corpus gigantesques sans annotation manuelle.
Il vous reste 26.33% de cet article à lire. La suite est réservée aux abonnés.