Sous la supervision de Google DeepMind, le groupe Alphabet et Google préparent un nouveau modèle d’IA multimodale baptisé Gemini qui doit en principe être capable de surpasser le système GPT-4 d’OpenAI, à l’oeuvre dans son agent conversationnel ChatGPT.
Si l’IA Google Bard a fait les gros titres de l’événement annuel Google I/O 2023 en mai dernier, Google avait évoqué plus discrètement ce projet qui restait encore dans les laboratoires de la firme pour être affiné.
Gemini serait en mesure de gérer du texte et des images en entrée (ou prompt) avec des capacités d’analyse avancées qui offriraient donc des performances supérieures au modèle de langage d’OpenAI et donnant à Google un avantage technique.
La surreprésentation de l’anglais dans l’entraînement des modèles d’IA
Selon The Information, Google était prêt à dévoiler Gemini dans les jours qui viennent mais son dirigeant Sundar Pichai aurait annulé les divers événements prévus au Etats-Unis.
L’annulation de son annonce serait liée au fait que Gemini peine à interpréter les requêtes qui ne sont pas en anglais. Par nature, les grandes IA génératives sont très majoritairement entraînées avec des contenus en anglais, ce qui n’est pas sans poser des problèmes pour leur utilisation dans d’autres langues, que ce soit pour la compréhension des requêtes formulées mais aussi pour les réponses données en retour.
Plusieurs pays travaillent d’ailleurs sur des projets d’IA générative utilisant leur propre langue et ses subtilités afin de fournir des résultats plus pertinents. Les intelligences artificielles des grands groupes du Web sont aussi censées s’améliorer sur ce point et Gemini ne semble pas avoir montré toutes les qualités requises.
La Chine en particulier développe ses propres IA multimodales avec un entraînement plus à même de cerner toutes les intentions des requêtes en mandarin tout en promettant de rivaliser avec les possibilités de GPT-4.
La concurrence avec GPT-4 attendra
L’information reste officieuse, Google n’ayant rien annoncé concernant Gemini. En novembre, Sundar Pichai indiquait son intention de lancer rapidement Gemini 1.0, sans doute avec une phase d’accès limitée au début et un lancement plus général en début d’année prochaine.
La mise en pause du projet de lancement ne livre aucun calendrier alternatif, ce qui laisse dans le flou la mise à disposition de cette nouvelle IA générative qui est pourtant un gros projet de Google.
Outre ses capacités multimodales avancées, Gemini sera en effet particulièrement malléable pour être intégrée dans les services de Google mais aussi utilisable dans des applications tierces, qu’elles soient légères comme des applications mobiles ou plus conséquentes.
Cet aspect est important pour faciliter sa diffusion, créer une masse critique d’utilisateurs et prendre l’ascendant par rapport à des IA concurrentes comme système de référence vers lequel se tourneront plus facilement les développeurs.