Avec le Projet Astra, Google tente de répondre à OpenAI

Google a profité de sa conférence I/O pour dévoiler une démonstration vidéo de son projet Astra, qui tente de répondre directement au nouveau modèle de langage GPT-4o d’OpenAI.

Google ne compte pas laisser OpenAI faire la course à l’intelligence artificielle en tête. Le géant de la recherche a ainsi dévoilé son projet Astra qui repose sur un prototype d’agents IA qui utilise le modèle multimodal de Gemini.

L’avenir de l’IA sera multimodal ou ne sera pas

Vingt-quatre heures seulement après la présentation par OpenAI de son nouveau modèle de langage GPT-4o, Google dévoile sa réponse du berger à la bergère : le projet Astra. Présentée à travers une vidéo de deux minutes dans le cadre de la conférence Google I/O, la vidéo présente le potentiel de l’intelligence artificielle multimodale.

Ainsi, le modèle d’IA Gemini 1.5 Turbo démontre sa capacité à utiliser plusieurs sources de données (image, texte, voix, données, etc.) pour les traiter en temps réel, afin de répondre aux questions de l’utilisateur. La vidéo, assez bluffante, souffre cependant de la comparaison avec GPT-4o d’OpenAI quelques heures auparavant.

La vidéo du projet Astra est composée de deux parties. La première montre le prototype exécuté sur un smartphone Google Pixel et la seconde sur des lunettes connectées. L’agent reçoit un flux constant d’entrées audio et vidéo, qu’il peut analyser afin de raisonner sur son environnement en temps réel et interagir avec le testeur dans le cadre d’une conversation sur ce qu’il voit.

Sur le même sujet : l’IA de Google va doper le moteur de recherche de Google Photos

La vidéo est certainement orchestrée, mais force est de constater que cela fonctionne parfaitement. L’agent est d’abord capable de reconnaitre un objet qui fait du son, en précisant le type de haut-parleur pointé par l’utilisateur. Ce dernier lui demande ensuite de créer une allitération (répétition de consonnes dans une suite de mots rapprochés) à propos d’un pot de crayon de couleur, puis d’analyser à quoi sert une partie de code affiché sur un écran.

La démonstration se poursuit et se déroule sans accroc. Elle montre avec brio les nouvelles capacités d’analyse de l’environnement par l’agent conversationnel. Votre avis nous intéresse. Êtes-vous impressionnés ou non par cette démonstration ?

Découvrez également : pour chercher avec une vidéo, Google a peut-être enfin trouvé un usage à Gemini

Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Opera One – Navigateur web boosté à l’IA

Par : Opera

Source :

Google

Source link

L’avenir de l’IA sera multimodal ou ne sera pas

Laisser un commentaire Annuler la réponse