Google promet plus de rapidité et plus d’intelligenc …

Google

Google est obsédé par la vitesse. Qu’il s’agisse du temps nécessaire pour obtenir un résultat de recherche ou du temps nécessaire pour commercialiser un produit, Google a toujours été pressé. Cette approche a largement profité à l’entreprise. Des résultats de recherche plus rapides et plus complets ont propulsé Google au sommet.

Mais les lancements rapides de produits se sont aussi traduits par une longue histoire de bêtas publiques et d’échecs ou d’abandons de produits. Il existe même un site web appelé Killed by Google qui répertorie tous les échecs de Google. Bien que cette liste soit étonnamment longue, l’entreprise a également lancé des produits gagnants tels que Gmail et Adsense.

Vous pouvez donc imaginer à quel point la direction de Google a été frustré, l’année dernière, lorsque la révolution de l’IA a semblé lui échapper. Alors que Google investissait dans l’IA depuis des années, ChatGPT s’est imposé en très peu de temps.

Le lent démarrage de Google dans l’IA générative

Google a réagi, bien sûr. Mais ça c’est d’abord pas très bien passé, avec Bard. Son outil d’IA générative Gemini, lancé à la fin de l’année 2023, a été intégré en haut de la SERP (page de résultats des moteurs de recherche) de Google. Dans un billet de blog aujourd’hui, Sundar Pichai, PDG de Google et d’Alphabet, déclare : « Nos résumés d’Al touchent maintenant 1 milliard de personnes, leur permettant de poser des questions d’un type entièrement nouveau – et devenant l’une de nos fonctions de recherche les plus populaires. »

Mais j’ai constaté moi même que l’IA de Google ne marche pas, à la fois au niveau du codage et même de la conscience qu’elle a de ses propres capacités.

Pourtant, Sundar Pichai, dans ce même billet de blog, affirme que « depuis décembre dernier, lorsque nous avons lancé Gemini 1.0, des millions de développeurs ont utilisé Google AI Studio et Vertex AI pour construire avec Gemini ».

Je suis sûr que c’est vrai. Et cela signifie probablement que l’IA de Google est adaptée à certaines tâches de développement – et pas à d’autres. Google étant centré sur Python, je parierais que la plupart des développeurs qui utilisent l’IA de Google travaillent sur des projets liés à Python.

En d’autres termes, des améliorations sont possibles. Et il est tout à fait possible que cette amélioration vienne de se produire. Car Google annonce aujourd’hui Gemini 2.0, ainsi qu’une série d’améliorations pour les développeurs.

Que trouve t-on dans Gemini 2.0 ?

L’annonce de Gemini 2.0 nous parvient par le biais d’un billet de blog rédigé par Demis Hassabis et Koray Kavukcuoglu, respectivement PDG et directeur technique de Google DeepMind. Le titre principal indique que Google 2.0 est « notre nouveau modèle Al pour l’ère agentique ».

Nous reviendrons sur l’aspect agentique dans une minute. Mais nous devons d’abord parler du modèle Gemini 2.0. Techniquement, Gemini 2.0 est une famille de modèles, et ce qui est annoncé aujourd’hui est une version expérimentale de Gemini 2.0 Flash. Google le décrit comme « notre modèle de référence avec une faible latence et des performances à la pointe de notre technologie, à grande échelle ».

Cela va demander un peu d’explications.

Les modèles Gemini Flash ne sont pas des chatbots. Ils alimentent les chatbots et de nombreuses autres applications. En fait, la désignation Flash signifie que le modèle est destiné à être utilisé par les développeurs.

Un élément clé de l’annonce revient sur notre thème de la vitesse. Selon Hassabis et Kavukcuoglu, Gemini 2.0 Flash est deux fois plus performant que Gemini 1.5 Flash.

Gemini 2.0 Flash prend en charge les sorties multimodales

Les versions antérieures de Gemini Flash prenaient en charge les entrées multimodales telles que les images, la vidéo et l’audio. Gemini 2.0 Flash prend en charge les sorties multimodales, telles que « les images générées en mode natif mélangées à du texte et à de l’audio multilingue orientable de type texte-parole (TTS text-to-speech) ». Il peut également appeler en mode natif des outils tels que la recherche Google, l’exécution de code, ainsi que des fonctions tierces définies par l’utilisateur ».

La synthèse vocale pilotable, c’est l’idée que vous pouvez spécifier des éléments tels que la personnalisation de la voix (homme ou femme, par exemple), le style de discours (formel, amical, etc.), la vitesse d’élocution et la franchise, et éventuellement la langue.

Les développeurs peuvent utiliser Gemini 2.0 Flash dès maintenant. Il se présente sous la forme d’un modèle expérimental accessible via l’API de Google dans Google AI Studio et Vertex AI. L’entrée multimodale et la sortie de texte sont disponibles pour tous les développeurs. Mais les fonctions de synthèse vocale et de génération d’images ne sont accessibles qu’aux partenaires de Google ayant bénéficié d’un accès anticipé.

Les non-développeurs peuvent également jouer avec Gemini 2.0 via l’assistant Gemini AI, à la fois dans les versions de bureau et mobile. Cette version « optimisée pour le chat » de 2.0 Flash peut être choisie dans le menu déroulant du modèle, où « les utilisateurs peuvent faire l’expérience d’un assistant Gemini encore plus utile ».

Les ambitions de l’IA agentique

Revenons maintenant à la question de l’agentivité. Google décrit l’agentique comme une interface utilisateur dotée de « capacités d’action ». Sundar Pichai, dans son billet de blog, dit que l’IA agentique « peut comprendre davantage le monde qui vous entoure, penser plusieurs étapes à l’avance, et prendre des mesures en votre nom, avec votre supervision ».

Je suis heureux qu’il ait ajouté « sous votre supervision ». Car l’idée d’une IA qui comprend le monde qui vous entoure et qui est capable de réfléchir plusieurs fois à l’avance est à l’origine de nombreuses histoires de science-fiction. Et elles ne se terminent pas bien.

Gemini 2.0 comporte une longue liste d’améliorations :

Raisonnement multimodal : capacité à comprendre et à traiter des informations provenant de différents types de données, comme des images, des vidéos, des sons et des textes.
Compréhension du contexte long : capacité à participer à des conversations, plutôt que de simplement répondre à des questions ponctuelles. Capacité à garder une trace de ce qui a été discuté ou traité et à travailler à partir de cet historique.
La capacité à suivre des instructions complexes et à planifier : capacité à suivre une série d’étapes ou à concevoir une série d’étapes pour atteindre un objectif spécifique.
L’appel de fonctions compositionnelles : au niveau du codage, la capacité à combiner plusieurs fonctions et API pour accomplir une tâche.
Utilisation d’outils natifs : capacité d’intégrer et d’accéder à des services tels que la recherche Google dans le cadre des capacités de l’API.
Amélioration de la latence : temps de réponse plus rapide, rendant les interactions plus transparentes et contribuant à alimenter la dépendance globale de Google à l’égard de la vitesse.

Dans l’ensemble, ces améliorations permettent de préparer Gemini 2.0 pour les activités agentiques.

Que trouve t-on dans les projets Astra et Mariner de Google ?

Le projet Astra de Google illustre la manière dont toutes ces capacités se combinent. Le Projet Astra est un prototype d’assistant d’intelligence artificielle qui intègre des informations du monde réel dans ses réponses et ses résultats. Il s’agit d’un assistant virtuel, où l’emplacement et l’assistant sont virtuels.

Astra pourrait être amené à recommander un restaurant ou à élaborer un itinéraire. Mais à la différence d’un chatbot, l’assistant est censé combiner plusieurs outils, comme Google Maps et Search, prendre des décisions en fonction des connaissances de l’utilisateur, et même prendre l’initiative si, par exemple, il y a des travaux sur une route menant à une destination possible. Dans ce cas, l’IA pourrait recommander un autre itinéraire ou, si le temps est compté, peut-être même une autre destination.

Le projet Mariner est un autre projet de recherche ambitieux de Google, même s’il me semble un peu plus effrayant. Mariner travaille avec ce qui se trouve sur l’écran de votre navigateur, en lisant ce que vous lisez, puis en réagissant ou en prenant des mesures en fonction de certains critères.

Mariner est censé interpréter le contenu des pixels ainsi que le texte, le code, les images et les formulaires, et – avec de sérieux garde-fous, on l’espère – prendre en charge des tâches du monde réel. À l’heure actuelle, Google dit que Mariner fonctionne assez bien. Mais qu’il n’est pas toujours précis et qu’il est parfois un peu lent.

Jules : Voyage au centre de la base de code

Jules est un agent expérimental pour les développeurs. Celui-ci me semble également effrayant. Jules est un agent qui s’intègre dans les flux de travail de GitHub et qui est censé gérer et déboguer le code.

Selon l’article de blog d’aujourd’hui de Shrestha Basu Mallick, Manager de Gemini API et Kathy Korevec, de Google Labs, « Vous pouvez décharger sur Jules des tâches de codage Python et Javascript ».

Ils ajoutent : « Fonctionnant de manière asynchrone et intégré à votre flux de travail GitHub, Jules prend en charge les corrections de bogues et autres tâches fastidieuses pendant que vous vous concentrez sur ce que vous voulez réellement construire. Jules crée des plans complets en plusieurs étapes pour résoudre les problèmes, modifie efficacement plusieurs fichiers et prépare même des demandes d’extraction pour renvoyer les corrections directement dans GitHub. »

Je comprends tout à fait comment Jules peut favoriser une augmentation de la productivité. Mais cela me met aussi mal à l’aise. Il m’est arrivé de déléguer mon code à des codeurs humains et de recevoir en retour un code minable.

Je crains de recevoir un travail tout aussi problématique de la part de codeurs artificiels. Donner à un Al la possibilité de modifier mon code me semble risqué. Si quelque chose ne va pas, trouver ce qui a été modifié et revenir en arrière, même avec des outils comme Git et d’autres outils de contrôle de version, semble être un grand pas.

Cela dit, si Google est prêt à confier sa propre base de code à Gemini 2.0 et à Jules, qui suis-je pour juger ?

Source link