« Gemini est le modèle d’intelligence artificielle [IA] le plus puissant et le plus généraliste que nous ayons publié », se félicite, mercredi 6 décembre, le PDG de Google, Sundar Pichai. Ce nouveau modèle de traitement automatique du langage et des images représente « l’état de l’art dans les résultats à de nombreux tests d’évaluation des modèles », a ajouté le dirigeant. Une façon de dire que Gemini est censé rivaliser avec ses meilleurs concurrents sur le marché, dont GPT-4, le modèle le plus récent publié par OpenAI, le créateur de ChatGPT.
Google affirme que, selon ses évaluations, Gemini dépasse GPT-4 dans huit des neuf principaux tests reconnus par la communauté, en maths, traduction, programmation python… Le modèle aurait aussi résolu 90 % des 57 tâches d’un de ces tests classiques imaginés par l’université de Berkeley (Californie) en 2020 pour comparer les capacités de compréhension des modèles de langue, en maths, droit ou histoire. GPT-4 est à 87 %, quand GPT-3, son prédécesseur, était à 45 %.
Une autre nouveauté, Gemini a été entraîné non pas seulement sur des milliers de milliards de textes, mais aussi sur des tonnes d’images (photos, graphiques…), de sons ou de vidéos. L’entreprise insiste aussi sur les capacités de « raisonnement » et de « planification » de son outil « multimodal ».
Dans ses démonstrations, Google montre que ce dernier est capable de « comprendre » un exercice scolaire écrit à la main, de repérer des erreurs et de proposer le bon raisonnement. Le logiciel peut aussi retrouver une courbe dans un article scientifique pour, éventuellement, la mettre à jour avec de nouvelles données. Gemini peut aussi proposer des réponses en images, même si, pour l’instant, les réponses de ses premières versions accessibles au public et aux entreprises resteront textuelles.
Très évasif
Gemini existe en trois versions, de taille différente, Ultra, Pro et Nano. La dernière, avec moins de 4 milliards de paramètres, peut fonctionner sur un smartphone. C’est aussi le cas de « petits » modèles de Llama (Meta) ou Mistral, avec, selon les propres évaluations de Google, des performances meilleures que Gemini Nano.
Gemini aurait aussi permis de considérablement augmenter les capacités d’un autre logiciel de sa filiale Google DeepMind, AlphaCode, spécialisé dans la programmation et sorti en 2022. AlphaCode 2 aurait ainsi résolu deux fois plus de problèmes dans ce domaine que son prédécesseur. L’outil cherchera à rivaliser avec le leader de cette catégorie, GitHub Copilot, créé par Microsoft avec les modèles de son partenaire OpenAI.
Il vous reste 55% de cet article à lire. La suite est réservée aux abonnés.