Google a fait son possible pour montrer Gemini, sa nouvelle IA, sous son meilleur jour. La firme de Mountain View a même été jusqu’à modifier l’une des vidéos de démonstration du modèle d’intelligence artificielle générative. Les libertés prises par un Google très désireux de se mesurer à son rival OpenAI ont été épinglées par Bloomberg.
Cette semaine, Google a levé le voile sur Gemini, une nouvelle version de son modèle d’IA. Contrairement aux dernières rumeurs, Google n’a pas reporté le lancement de l’intelligence artificielle, bien que le dispositif autour de celle-ci semble avoir été considérablement réduit.
Grâce à cette nouvelle itération, qualifiée de multimodale, le géant de Mountain View s’attaque à GPT-4, le modèle de langage derrière la version payante de ChatGPT. Google espère que Gemini Pro, l’une des déclinaisons du modèle, permettra à Bard, son chatbot taillé pour la recherche en ligne, de surpasser l’incontournable robot conversationnel d’OpenAI.
À lire aussi : On a posé 8 questions à Google Bard avec Gemini 1.0 – voici ses réponses
Google explique comment la démo de Gemini a été modifiée
Soucieux de présenter Gemini sous le meilleur jour, Google n’a d’ailleurs pas hésité à éditer l’une des vidéos de démonstration de l’IA. D’après nos confrères de Bloomberg, l’entreprise américaine a en effet admis que des modifications ont été apportées à la vidéo de prise en main de Gemini. La séquence, visible ci-dessous, montre plusieurs interactions entre un utilisateur et l’IA. L’usager demande notamment au modèle multimodal de prédire à quoi va ressembler un dessin dès sa genèse ou de suivre la progression d’une pièce de monnaie d’une main à l’autre.
Dans la description visible sur YouTube, Google indique que cette démonstration de six minutes n’a pas été réalisée en conditions réelles. En fait, « la latence a été réduite et les réponses de Gemini ont été raccourcies par souci de brièveté », admet la firme. En clair, l’IA n’a pas répondu et réagi instantanément aux images fournies par son interlocuteur, contrairement à ce que la vidéo indique. Au lieu de filmer un échange en temps réel, sans montage, Google s’est servi d’une combinaison de séquences.
De plus, Google n’a pas vraiment laissé un individu interagir à la voix avec Gemini. De l’aveu d’un porte-parole interrogé par Bloomberg, « des images fixes de la séquence » et des requêtes textuelles ont été utilisées. Ces requêtes ont été ensuite enregistrées et ajoutées à la vidéo. Une fois montée, la vidéo donne l’impression qu’un utilisateur a communiqué oralement avec l’IA, ce qui n’est pas le cas. Finalement, les performances réelles de Gemini, qu’il s’agisse de la rapidité de réaction ou de sa capacité à converser avec un humain, semblent bien éloignées de la démonstration.
Encore pire, Google a raccourci les requêtes adressées à Gemini. Pour obtenir une réponse complète et pertinente, il faut en fait poser de longues questions détaillées à l’IA. Dans la vidéo, la voix-off, rajoutée au montage, se contente de questions courtes, et plutôt vagues. On pouvait donc s’étonner que le modèle soit capable de comprendre aussi facilement où veut en venir son interlocuteur. Finalement, Gemini a bien besoin d’une requête bien complète pour se montrer efficace, tout comme son rival GPT-4.
Selon Bloomberg, les libertés prises par Google ne s’arrêtent pas là. D’après le média, la démonstration a été réalisée à l’aide de Gemini Ultra, la version la plus puissante et sophistiquée du modèle d’IA. Pourtant, Google se garde bien de préciser quelle version est à l’origine de la vidéo, alors que la version Ultra n’est pas encore disponible. La firme joue volontairement sur le flou en laissant penser que c’est la version 1.0 de Gemini qui est à l’origine des prouesses de la séquence.
Une « proof of concept »
Sur son compte X (ex-Twitter), Oriol Vinyals, le vice-président de la recherche et responsable deep learning chez DeepMind, la filiale de Google à l’origine de Gemini, défend fermement les modifications apportées par les équipes du groupe. Le responsable rappelle que les requêtes et les réponses aperçues dans la vidéo sont tout à fait réelles :
« Toutes les questions d’utilisateur et les réponses dans la vidéo sont réelles, raccourcies pour des raisons de brièveté. La vidéo illustre à quoi pourraient ressembler les expériences utilisateur multimodales construites avec Gemini. Nous l’avons créée pour inspirer les développeurs ».
Il s’agit donc vraisemblablement plutôt d’une « proof of concept », ou preuve de concept en français, c’est-à-dire une démonstration pratique visant à illustrer la faisabilité et la viabilité d’une technologie, plutôt que d’une présentation. En clair, la manière dont Google a présenté les interactions avec Gemini pourrait fortement différer du résultat final.
Par : Opera
Source :
Bloomberg