Il y a de fortes chances que vous ayez déjà entendu parler de l’expression « grands modèles de langage », ou LLM, lorsque l’on évoque l’IA générative. Ils sont différentes des chatbots que vous connaissez sans doute, comme ChatGPT, Google Gemini, Microsoft Copilot, Meta AI ou encore Claude d’Anthropic. Ces chatbots sont plutôt l’interface que nous utilisons pour interagir avec de grands modèles de langage.
Les LLM sont des technologies sous-jacentes aux chatbots. Ils sont formés pour reconnaître la façon dont les mots sont utilisés et les mots qui apparaissent fréquemment ensemble. Leur objectif est de pouvoir prédire les mots, les phrases ou les paragraphes à venir lors des phases de génération de contenu.
Il est donc essentiel de comprendre le fonctionnement des LLM pour comprendre le fonctionnement de l’IA. Voici tout ce qu’il faut savoir sur les LLM et leur rapport avec l’IA Gen.
Qu’est-ce qu’un modèle de langage ?
On peut, toute proportion gardée, considérer un modèle linguistique comme un devin pour les mots.
« Un modèle de langage est un outil qui tente de prédire le langage produit par les humains », explique Mark Riedl, professeur à la Georgia Tech School of Interactive Computing. « Ce qui fait de quelque chose un modèle de langage, c’est sa capacité à prédire les mots futurs à partir des mots précédents ».
Un exemple ? C’est la base de la fonction d’autocomplétion lorsque vous écrivez un texte. Et c’est cette même logique qui est utilisée par les chatbots d’IA.
Qu’est-ce qu’un grand modèle de langage ?
Un grand modèle linguistique contient de grandes quantités de mots provenant d’un large éventail de sources. Ces modèles sont mesurés en « paramètres ».
Alors, qu’est-ce qu’un paramètre ? Les LLM utilisent des réseaux neuronaux, c’est à dire des modèles d’apprentissage automatique qui prennent une entrée et effectuent des calculs mathématiques pour produire une sortie. Le nombre de variables dans ces calculs sont des paramètres. Un grand modèle linguistique peut avoir 1 milliard de paramètres ou plus.
« Nous savons qu’ils sont de grande taille lorsqu’ils produisent un paragraphe complet de texte fluide et cohérent », dit M. Riedl.
Comment les grands modèles linguistiques apprennent-ils ?
Les LLM apprennent par le biais d’un processus fondamental de l’intelligence artificielle appelé apprentissage profond (ou deep learning en anglais).
« C’est un peu comme lorsqu’on enseigne à un enfant. On lui montre beaucoup d’exemples », explique Jason Alan Snyder, DT de l’agence de publicité Momentum Worldwide.
En d’autres termes, vous alimentez le LLM avec une bibliothèque de contenus (ce que l’on appelle des données d’entraînement) tels que des livres, des articles, du code et des messages sur les médias sociaux pour l’aider à comprendre comment les mots sont utilisés dans différents contextes. Les pratiques des entreprises d’IA en matière de collecte de données et de formation font l’objet d’une certaine controverse et de poursuites judiciaires. Des éditeurs comme le New York Times, des artistes et d’autres propriétaires de catalogues de contenus affirment que des entreprises technologiques ont utilisé leur matériel protégé par des droits d’auteur sans les autorisations nécessaires.
De l’art de décomposer les mots avec des tokens
Les modèles d’intelligence artificielle digèrent bien plus d’informations qu’une personne ne pourrait jamais lire au cours de sa vie – quelque chose de l’ordre de trillions de tokens (ou jetons). Les jetons aident les modèles d’IA à décomposer et à traiter le texte. On peut considérer un modèle d’IA comme un lecteur qui a besoin d’aide. Le modèle décompose une phrase en éléments plus petits, ou tokens, qui équivalent à quatre caractères en anglais, soit environ les trois quarts d’un mot, afin de pouvoir comprendre chaque élément, puis le sens global.
À partir de là, le LLM peut analyser la façon dont les mots sont reliés entre eux et déterminer ceux qui apparaissent souvent ensemble.
« C’est comme si l’on construisait une carte géante des relations entre les mots », explique M. Snyder. « Le LLM compare la prédiction au mot réel dans les données et ajuste la carte interne en fonction de sa précision ».
Les LLM ne comprennent pas le sens des mots
Cette prédiction et cet ajustement se produisent des milliards de fois, de sorte que le LLM affine constamment sa compréhension du langage et s’améliore dans l’identification des modèles et la prédiction des mots à venir. Il peut même apprendre des concepts et des faits à partir des données pour répondre à des questions, générer des formats de texte créatifs et traduire des langues. Mais – et c’est très important – les LLM ne comprennent pas le sens des mots comme nous le faisons. Tout ce qu’ils connaissent, ce sont les relations statistiques.
Les LLM apprennent également à améliorer leurs réponses grâce à l’apprentissage par renforcement à partir des commentaires humains.
« Les humains émettent un jugement ou une préférence sur la meilleure réponse à donner en fonction des données fournies », explique Maarten Sap, professeur de l’université Carnegie Mellon. « On peut alors apprendre au modèle à améliorer ses réponses ».
Les LLM maîtrisent certaines tâches, mais pas d’autres. Alexander Sikov/iStock/Getty Images Plus
Que font les grands modèles de langage ?
Étant donné une série de mots en entrée, un LLM prédit le mot suivant dans la séquence. Par exemple, considérons la phrase « J’ai fait de la voile sur la grande… »
La plupart des gens devineraient probablement « bleue » parce que « voile » et « grande » sont des mots que nous associons à la mer Méditerranée. En d’autres termes, chaque mot crée un contexte pour le mot suivant.
« Ces grands modèles de langage, parce qu’ils ont beaucoup de paramètres, peuvent stocker un grand nombre de modèles », explique M. Riedl. « Ils sont très doués pour repérer ces indices et deviner très, très bien ce qui va suivre ».
Quels sont les différents types de modèles linguistiques ?
Il existe plusieurs sous-catégories dont vous avez peut-être entendu parler, comme les modèles de petite taille, les modèles de raisonnement et les modèles open-source/open-weights.
Certains de ces modèles sont multimodaux, ce qui signifie qu’ils sont formés non seulement sur du texte, mais aussi sur des images, des vidéos et des sons.
Ils sont tous des modèles de langage et remplissent les mêmes fonctions, mais il existe quelques différences essentielles que vous devez connaître.
Existe-t-il un modèle linguistique de petite taille ?
Oui. Des entreprises comme Microsoft ont introduit des modèles plus petits conçus pour fonctionner « sur l’appareil », c’est à dire en mode local.
Ces modèles ne nécessitant pas les mêmes ressources informatiques qu’un LLM.
Mais ils permettent néanmoins aux utilisateurs d’exploiter la puissance de l’IA générative.
Que sont les modèles de raisonnement de l’IA ?
Les modèles de raisonnement sont une sorte de LLM.
Ces modèles vous permettent de jeter un coup d’œil derrière le rideau sur le cheminement de la pensée d’un chatbot lorsqu’il répond à vos questions.
Vous avez peut-être vu ce processus si vous avez utilisé DeepSeek, un chatbot d’IA chinois. Et tous les grands acteurs ont lancé leurs modèles de raisonnement, qu’il s’agisse de OpenAI, IBM, Google, ou encore NVIDIA.
Mais qu’en est-il des modèles open-source et open-weights ?
Encore des LLM ! Ces modèles sont conçus pour être un peu plus transparents quant à leur fonctionnement. Les modèles open source permettent à quiconque de voir comment le modèle a été construit.
Et ils sont disponibles pour que tout le monde puisse les personnaliser et en construire un.
Les modèles à pondération ouverte (open weight) nous donnent eux un aperçu de la manière dont le modèle pondère des caractéristiques spécifiques lors de la prise de décision.
Qu’est-ce que les grands modèles de langage font vraiment bien ?
Les LLM sont très efficaces pour déterminer le lien entre les mots et produire un texte qui semble naturel.
Ils prennent une entrée, qui peut souvent être un ensemble d’instructions, comme « Faites ceci pour moi », « Parlez-moi de ceci » ou « Résumez ceci », et sont capables d’extraire ces modèles de l’entrée et de produire une longue chaîne de réponses fluides », explique M. Riedl.
Mais ils présentent plusieurs faiblesses.
Où les modèles de langage de grande taille rencontrent-ils des difficultés ?
Tout d’abord, ils ne savent pas dire la vérité. En fait, ils inventent parfois des choses qui semblent vraies, comme lorsque ChatGPT a cité six fausses affaires judiciaires ou lorsque Bard de Google (le prédécesseur de Gemini) a attribué par erreur au télescope spatial James Webb le mérite d’avoir pris les premières photos d’une planète située en dehors de notre système solaire. Il s’agit là d’hallucinations.
« Ils sont extrêmement peu fiables dans la mesure où ils fabulent et inventent beaucoup de choses », dit M. Sap. « Ils ne sont ni entraînés ni conçus pour dire la vérité ».
Ils ont également du mal à répondre à des requêtes qui sont différentes de tout ce qu’ils ont pu rencontrer auparavant. Pourquoi ? Parce qu’ils se concentrent sur la recherche et la réponse à des modèles.
Les LLM ne sont pas doués pour la planification et la prise de décision
Un bon exemple est un problème de mathématiques avec un ensemble unique de nombres. « Il se peut que le LLM ne soit pas en mesure d’effectuer ce calcul correctement parce qu’il ne résout pas vraiment des mathématiques », explique M. Riedl. « Il essaie de relier votre question de mathématiques à des exemples de questions de mathématiques qu’il a déjà vues auparavant ».
Bref, si les LLM excellent dans la prédiction des mots, ils ne sont pas doués pour prédire l’avenir, ce qui inclut la planification et la prise de décision.
« L’idée de planifier comme le font les humains, en réfléchissant aux différentes éventualités et alternatives et en faisant des choix, semble être un obstacle vraiment difficile à surmonter pour nos grands modèles de langage actuels » dit M. Riedl.
Les LLM peuvent en toute confiance fournir des informations incorrectes
Enfin, ils ont du mal à traiter les événements actuels parce que leurs données de formation ne vont généralement que jusqu’à un certain moment. Et que donc tout ce qui se passe après ne fait pas partie de leur base de connaissances.
Et comme ils n’ont pas la capacité de faire la distinction entre ce qui est factuellement vrai et ce qui est probable, ils peuvent en toute confiance fournir des informations incorrectes sur les événements actuels.
Enfin, ils n’interagissent pas non plus avec le monde comme nous le faisons. « Il leur est donc difficile de saisir les nuances et les complexités des événements actuels qui nécessitent souvent une compréhension du contexte, de la dynamique sociale et des conséquences dans le monde réel », dit M. Snyder.
Comment les LLM sont-ils intégrés aux moteurs de recherche ?
Nous constatons que les capacités de recherche évoluent au-delà de ce à quoi les modèles ont été formés, notamment en se connectant à des moteurs de recherche tels que Google afin que les modèles puissent effectuer des recherches sur le web, puis introduire les résultats dans le LLM. Cela signifie qu’ils peuvent mieux comprendre les requêtes et fournir des réponses plus rapides.
« Cela permet à nos modèles de liens de rester à jour, car ils peuvent consulter de nouvelles informations sur l’internet et les introduire dans le système », dit aussi M. Riedl.
C’était l’objectif, par exemple, il y a quelque temps, avec Bing alimenté par l’IA. Au lieu d’exploiter les moteurs de recherche pour améliorer ses réponses, Microsoft s’est tourné vers l’IA pour améliorer son propre moteur de recherche, notamment en comprenant mieux la signification réelle des requêtes et en classant mieux les résultats de ces requêtes. En novembre dernier, OpenAI a lancé ChatGPT Search, qui donne accès aux informations de certains éditeurs de presse.
Mais il y a des inconvénients. La recherche sur le web pourrait aggraver les hallucinations en l’absence de mécanismes adéquats de vérification des faits. De plus, les utilisateurs doivent apprendre à évaluer la fiabilité des sources en ligne avant de les citer. Google l’a appris à ses dépens avec le lancement de ses résultats de recherche AI Overviews, entachés d’erreurs. Même à ce jour, les IA Overviews ne peuvent pas toujours vous dire quelle année nous sommes.