Si après les LLMs, le RAG, le multimodal, le Deep Research, les moteurs de raisonnement ou l’ « IA agentique », commencent à être confus pour vous ?
Alors ce billet est fait pour vous !
Le rythme des annonces de fonctionnalités ou d’améliorations des LLMs est effréné.
Cela fait maintenant deux ans que GreenSI le constate, mais on est toujours surpris par ces sorties qui ne laissent pas le temps de tester complétement un produit, qu’un autre est déjà annoncé.
Une des raisons à cette vitesse qui ne fléchi pas, est tout simplement que les investissements sur ce domaine ne fléchissent pas non plus. C’est aussi un domaine dans lequel la compétition États-Unis, Chine est exacerbée et les acteurs sont mondiaux (dont la France).
L’accélération des performances des LLM
L’une des tendances majeures de l’année 2024 aura été l’optimisation des modèles pour une plus grande efficacité et une meilleure compréhension contextuelle. OpenAI a marqué les esprits en mai 2024 avec GPT-4o, une version améliorée de son précédent modèle, offrant une rapidité de traitement doublée et une réduction des coûts de génération.
Dans le même temps, Mistral AI a poursuivi son développement avec Mixtral 8x22b, un modèle open source impressionnant, et Codestral, un outil spécialisé dans la génération de code informatique. Parallèlement, la compétition s’intensifie avec des acteurs comme DeepSeek et xAI (Grok 3) qui proposent des alternatives performantes à moindre coût, forçant les leaders du marché à innover constamment.
Il est important de comprendre que les LLM des premiers jours sont devenus des produits et d’une certaine façon des commodités. Ce n’est plus de la R&D !
C’est d’ailleurs peut-être une des raisons pour laquelle la sortie de Lucie a été ratée. Personne n’attendait plus un LLM, surtout s’il n’était pas au même niveau que les autres. En revanche, la même semaine, la sortie de DeepSeek, un LLM chinois de bon niveau, a été saluée pour la performance à le produire, notamment énergétique, et non pour le produit lui-même. D’ailleurs, en l’espace d’une semaine, il a été surpassé par le nouveau modèle o3-mini d’OpenAI, offrant une plus grande capacité, une vitesse accrue et également une réduction des coûts.
Les LLMs sont donc devenus des commodités qui vont s’intégrer partout dans tous les logiciels. On peut les améliorer, mais la suite de la révolution IA générative est ailleurs.
Ce qui manque aux LLM c’est :
- De comprendre le monde réel, et pas uniquement les corpus d’entrainements sur lequel ils ont été créés.
- D’avoir de la consistance et donc certainement une mémoire persistante sur de longues interactions. Sinon nos journées vont vite ressembler au film « Un jour sans fin ».
- De savoir planifier. C’est un peu la base de l’informatique que d’avoir imaginé le code qui planifie l’exécution d’instructions élémentaires.
- De vraiment raisonner. Un peu, comme quand on a ajouté le « IF … THEN … ELSE … » en langage BASIC, dans les premiers langages évolués, après l’époque du langage machine
Pour dépasser ces limites, de nouvelles briques apparaissent pour répondre à des usages qui pourront être rapidement valorisés. Car n’oublions pas que les milliards injectés par les investisseurs ou les gouvernements, cherchent une rentabilité !
Les modèles multimodaux
Au-delà de la simple amélioration des performances textuelles, l’une des révolutions les plus notables est l’émergence des IA multimodales. OpenAI a présenté Sora en février 2024, un modèle génératif de vidéo révolutionnaire capable de créer des clips ultra-réalistes à partir de descriptions textuelles.
Ces modèles multimodaux ne se contentent plus d’analyser du texte, mais prennent en charge la vidéo, l’image et l’audio de manière synchronisée. Cette évolution ouvre la voie à des applications embarquées dans des dispositifs portables, tels que les lunettes de Meta-Rayban et autres montres intelligentes. Une piste pour leur valorisation est certainement liée à la vente de ces équipements portables.
C’est aussi le modèle d’Apple, avec Apple intelligence qui ne se lance qu’à partir de l’iPhone 15… pour booster le remplacement des modèles précédents.
Redéfinir le paradigme de la recherche d’information
Apparu il y a déjà un an, le Retrieval-Augmented Generation (RAG) se concentre sur l’amélioration des capacités de génération de texte. Pour cela, il utilise en amont des bases de données ou des documents pour fournir des réponses précises et contextuelles. Il combine ainsi la génération de texte avec une recherche documentaire qui va améliorer la pertinence des réponses en enrichissant le prompt.
On comprend ici l’avantage que cela donne à Google ou aux éditeurs de logiciels de veille, car ils maîtrisent déjà ces technologies de recherche. Mais cela remet aussi en question leur business modèle…
En décembre 2024, Google a introduit « Deep Research« , un outil capable d’explorer des sujets complexes de manière autonome et de fournir des rapports détaillés. Cette fonctionnalité s’appuie sur le modèle Gemini, doté de capacités de raisonnement avancées et d’une fenêtre contextuelle étendue à un million de tokens, permettant de traiter de vastes quantités d’informations en une seule fois.
Début février 2025, OpenAI a lancé son propre outil « Deep Research », fonctionnant aussi comme un agent autonome. L’utilisateur fournit une requête, et l’agent analyse et synthétise des centaines de sources en ligne pour produire un rapport complet, comparable au travail d’un analyste de recherche. Il est suivi la semaine suivante par Perplexity.
En comparaison avec le RAG, le Deep Research va plus loin dans l’exploration et l’extraction d’informations en fouillant dans des volumes massifs de données, souvent non structurées. Cela permet une analyse plus poussée des domaines thématiques, en identifiant des corrélations complexes entre différents ensembles de données. Cette technologie est donc particulièrement prisée pour la veille stratégique et la recherche scientifique.
L’essor du Retrieval-Augmented Generation (RAG) en 2024 et du Deep Research en 2025, marquent un tournant dans l’exploitation des LLM.
C’est un début d’autonomie et de raisonnement.
Les moteurs de raisonnement au-dessus des LLMs
Les moteurs de raisonnement sont une évolution majeure des modèles de langage actuels. Ils permettent aux LLM de dépasser la simple génération de texte pour effectuer des tâches de raisonnement plus complexes. Des benchmarks, basés sur des milliers de questions, permettent de tester les LLMs et de les comparer parfois à des niveaux de tests académiques. Le plus connu est le MMLU, pour « Measuring Massive Multitask Language Understanding « , avec ses 16.000 questions de QCM qu’OpenAI, en tête du classement, réussi à 91,8 %.
Plutôt que de se limiter à la génération de texte, ces modèles sont désormais capables de structurer des processus décisionnels et d’exécuter des tâches complexes. C’est une brique qui va être utilisé par tous les autres usages pour passer d’un prompt humain, à des prompts générés par la machine, sur la base d’un objectif donné par l’humain.
Est-ce que le métier de « promp engineer » est amené à disparaître ?
Certainement, à supposer qu’il ait vraiment existé
Vers une IA « agentique » et proactive
Un système « AI agentic », comme les anglophones disent, désigne une intelligence artificielle dotée d’une autonomie lui permettant de prendre des décisions, d’exécuter des tâches de manière proactive et d’interagir avec son environnement. Le tout sans nécessiter une intervention humaine constante.
Contrairement aux modèles traditionnels qui se limitent à répondre à des requêtes, les systèmes AI agentiques sont capables de raisonner, planifier et agir dans des contextes complexes.
Pour cela, il leur faut donc :
- De l’autonomie qui va leur être donné par la capacité de planification et de raisonnement.
- La possibilité d’interaction avec des environnements dynamiques (bases de données, applications, API) en conséquence en temps réel !
- De la mémoire et une capacité d’apprentissage, comme les agents qu’ils sont censés remplacer. Ainsi, ils peuvent améliorer leurs réponses et leurs décisions au fil du temps.
On comprend que ces agents vont s’approprier et composer avec toutes les briques vues précédemment. Il leur en manque encore beaucoup, qui seront les prochaines sorties 2025, selon les cas d’usages qu’ils visent :
- On a déjà vu le Deep Research, ces agents qui naviguent sur le web pour synthétiser et analyser de l’information. On est au tout début, mais c’est déjà bluffant.
- Dans l’entreprise, les éditeurs d’ERP travaillent sur des IA capables d’optimiser des processus métiers en analysant des données et en exécutant des actions sans supervision humaine constante.
- Enfin, un agent IA peut avoir une enveloppe physique !
On rentre alors dans le champ des robots autonomes capables de s’adapter à des environnements changeants.
Tandis qu’un LLM se limite à générer des réponses basées sur des entrées statiques, un système « AI agentic » va au-delà de la simple génération de texte. Il exécute des actions, apprend de ses expériences et peut fonctionner en boucle sans supervision constante. On imagine que la valorisation de ces usages sera concrète.
L’intelligence artificielle générative est entrée dans une phase de maturité où la simple amélioration des modèles de langage ne suffit plus. L’évolution actuelle se concentre sur l’intégration de la mémoire, la planification, le raisonnement et l’interopérabilité multimodale.
L’avenir de l’IA générative repose maintenant sur sa capacité à s’insérer dans des systèmes intelligents autonomes, capables d’agir et de s’adapter à des contextes dynamiques.
Les annonces récentes et les lancements de produits dans le domaine de l’IA illustrent donc une course effrénée vers ces systèmes plus autonomes.