Google poursuit sa course à l’IA. Le géant de la recherche vient de mettre au point une version de Gemini capable de surfer sur le web à la place des internautes. Google rivalise ainsi directement avec le mode Agent de ChatGPT, de son rival OpenAI.
La guerre de l’IA bat son plein. Quelques semaines après qu’OpenAI a levé le voile sur le mode Agent de ChatGPT, Google a présenté Gemini 2.5 Computer Use. Cette nouvelle version se distingue fortement des précédentes itérations de Gemini. La nouvelle IA de Google est en effet capable de naviguer en toute autonomie sur Internet.
Comme le montre la vidéo de démonstration mise en ligne par Google, l’IA, qui repose sur Gemini 2.5 Pro, est en mesure d’interagir avec des commandes, de remplir des formulaires et de parcourir des pages. Il suffit d’une instruction sous la forme de texte de la part de l’utilisateur pour que l’IA se débrouille toute seule par la suite. L’IA fonctionne un peu de la même manière que le mode Agent de ChatGPT ou que Manus, une IA chinoise qui ambitionne de tout faire à votre place.
À lire aussi : Google offre jusqu’à 20 000 $ pour la découverte d’un bug dans son IA
Comment fonctionne Gemini 2.5 Computer Use ?
Le fonctionnement de l’IA repose sur sa capacité à « voir » et à comprendre ce qui s’affiche à l’écran. Gemini 2.5 Computer Use fonctionne sur la base d’une boucle de rétroaction itérative, un processus de répétition et d’amélioration continue.
Concrètement, le modèle d’IA reçoit la requête de son interlocuteur. Il réalise une capture d’écran de ce qui est affiché sur le navigateur. Gemini va analyser l’image pour décider ce que sera sa prochaine action. Après avoir exécution cette action, l’IA refait une capture et la boucle de rétroaction recommence. Celle-ci va se poursuivre jusqu’à ce que la demande de l’internaute ait été réalisée. Cerise sur le gâteau, il résout même les CAPTCHA de recherche Google à votre place.
Google précise que le champ d’action de Gemini 2.5 Computer Use est limité au navigateur, Chrome en l’occurrence. L’IA ne peut pas interagir ou contrôler le système d’exploitation de votre ordinateur. Comme l’explique Google, cette version de Gemini est taillée pour fonctionner avec un navigateur web et les sites Web. De ce point de vue, l’IA est plus limitée que ses concurrents, comme Claude 3.5 Sonnet ou l’Agent de ChatGPT.
Le géant de Mountain View a partagé plusieurs exemples des prouesses de son nouveau modèle d’IA. Il est par exemple possible d’extraire des données personnelles depuis un site, de les ajouter dans un autre système, de prendre un rendez-vous au nom de l’utilisateur. Gemini peut aussi interagir avec des plateformes collaboratives en ligne à votre place, ajouter des articles dans votre panier sur un site d’e-commerce ou réserver une table dans un restaurant. Google promet que l’IA réalise toutes ces taches avec une faible latence.
Une IA au cœur de l’AI Mode
Gemini 2.5 Computer Use est déjà intégré à certains outils de Google, comme l’AI Mode, qui n’est pas encore disponible en France, ou encore Project Mariner, un prototype de Google DeepMind. Le modèle a aussi servi en interne pour tester des interfaces. Par ailleurs, Google propose aussi un programme d’accès anticipé pour les développeurs externes qui créent des assistants ou des outils d’automatisation. Un aperçu public par le biais de Google AI Studio et de Vertex AI a aussi été mis en ligne.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source :
Google