Les modèles de langage ne suffisent plus. Aujourd’hui, les entreprises spécialisées dans l’intelligence artificielle préfèrent parier sur des modèles dits « de raisonnements ».
Cette nouvelle génération de modèles de langage dispose de capacités de raisonnement supplémentaires afin de s’attaquer à des problèmes complexes.
La course au raisonnement
Mistral AI a ainsi présenté hier son premier modèle du genre, baptisé Magistral. Celui-ci est disponible en open source dans une version embarquant 24 milliards de paramètres. Une seconde version est destinée aux entreprises et selon les dires de Mistral AI, est « plus puissante. »
Le principal argument de Magistral est, selon Mistral AI, sa capacité à raisonner. Magistral serait capable résoudre des problèmes complexes, et surtout ensuite de donner une explication retraçant les différentes étapes de son raisonnement. La société estime que le modèle est particulièrement adapté pour :
- Des tâches d’aide à la prise de décision en entreprise
- Le développement informatique
- Une utilisation dans des entreprises opérant dans des secteurs régulés, grâce à la capacité du modèle à retracer son cheminement de pensée
Mistral met en avant les performances de son modèle sur différents benchmark. Ils montrent que la version « medium » de Magistral, celle réservées aux entreprises, affiche des performances légèrement inférieures à celle du modèle Deepseek R1, modèle de raisonnement conçu par la société chinoise Deepseek.
Des modèles de langage, en plus malin
Le développement des modèles de langage de raisonnement semble être devenu le nouveau terrain de compétition des entreprises spécialisées dans l’IA. Et ce après avoir vanté les performances de leurs modèles de langage naturels et de leurs IA « agentiques ». OpenAI a ouvert le bal en fin d’année 2024 en présentant sa gamme de modèles o1 et ses évolutions, rapidement suivi par les principaux acteurs du secteur, par exemple Deep Research chez Gemini, ou Qwen chez Alibaba.
La promesse de ces modèles réside dans leur capacité à faire face à des problèmes complexes et à les découper en une suite de problèmes plus simples, que le modèle va résoudre séparément en offrant la possibilité de retracer son raisonnement.
Pour y parvenir, les modèles de raisonnement sont entraînés sur des jeux de données spécifiques. Ils ont aussi recours à des tokens spécifiques de raisonnement ou de pensée afin d’améliorer leurs performances.
Apple, pas impressionné
Mais tout le monde ne partage pas cet engouement. La semaine dernière, des chercheurs d’Apple ont ainsi publié un article de recherche venant tempérer les performances de ces modèles.
Les chercheurs estiment que les améliorations de ces modèles restent limitées. Testés sur plusieurs tâches de logique, les performances des modèles de raisonnement sont :
- Comparables à celles des modèles de langage classique sur les tâches simples
- supérieures sur les tâches moyennement complexes
- s’effondrent complètement passé un certain seuil de complexité
Les chercheurs de la marque à la pomme estiment notamment que les outils utilisés pour comparer les performances de ces modèles ne sont pas adaptés : « Les évaluations actuelles se concentrent principalement sur des critères mathématiques et de production de code informatique établis, mettant l’accent sur l’exactitude des réponses finales. Cependant, ce paradigme d’évaluation souffre souvent d’une contamination des données et ne fournit pas d’informations sur la structure et la qualité des traces de raisonnement. »
L’article publié par Apple n’a pas été relu par des pairs avant sa publication.