Au mois de mai dernier, Google a profité de sa conférence Google I/O pour évoquer un travail mené sur un modèle d’IA baptisé Gemini. Il est développé sous l’égide d’une division Google DeepMind issue de la fusion des équipes de recherche de Google Brain et de DeepMind.
Ce grand modèle de langage a été créé dès le départ pour être multimodal. Une capacité notamment introduite avec GPT-4 d’OpenAI qui peut accepter en entrée des images, de la même manière que du texte, pour générer du texte en sortie.
Les prompts (requêtes) peuvent être composés de texte et d’images intercalées. GPT-4 analyse le contenu des images et répond à des questions s’appuyant sur des images, décrit les images ou encore propose des résumés de captures d’écran.
Des outils, des API et du raisonnement
Avec Gemini, Sundar Pinchai, le patron de Google et d’Alphabet, fait miroiter des capacités multimodales impressionnantes et inédites avec les modèles précédents. La vidéo serait aussi de la partie. Il souligne en outre son efficacité dans l’intégration d’outils et d’API.
Grâce à des techniques exploitées dans AlphaGo pour battre les champions humains du jeu de Go, Gemini pourra bénéficier ultérieurement de futures innovations comme la mémoire, la planification et pour résoudre des problèmes.
Une disponibilité de Gemini est prévue dans différentes tailles et capacités. Selon The Information, un petit groupe d’entreprises dispose désormais d’un accès à une version préliminaire de Gemini.
Un lancement de Gemini serait tout proche
Après une disponibilité en interne, ce serait le signe que Google est sur le point de commercialiser Gemini via la plateforme Vertex AI de Google Cloud et de l’intégrer à ses services grand public.
» Gemini exploite des quantités de données propriétaires de Google provenant de ses produits, en plus des informations publiques du Web « , déclare une personne ayant testé Gemini à The Information.
» Il semble être très précis quand il s’agit de comprendre les intentions des utilisateurs avec des requêtes particulières, et il semble générer moins de réponses incorrectes. » Un dernier point qui fait allusion aux fameuses hallucinations de l’IA.