Ce que pense vraiment le boss d’Android de l’avenir de l’IA (et d …

En 5 ans à peine, la mission d’Android est passée du contrôle de la vie privée et de l’intégration de la domotique à l’intégration d’expériences basées sur l’IA dans presque tous les aspects de l’expérience mobile.

Au centre de cette évolution se trouve Sameer Samat, responsable d’Android chez Google.

Il a pris le temps, pendant le chaos du denier MWC, de discuter avec moi des nouvelles capacités de vidéo en temps réel et de partage d’écran de Gemini Live – des fonctions alimentées par le projet Astra de DeepMind – et de ce qu’elles révèlent sur l’avenir de l’IA dans Android.

Les nouvelles fonctionnalités de vidéo et de partage d’écran de Gemini Live

L’enthousiasme de Samat pour les nouvelles fonctionnalités de Gemini Live était palpable dès que nous avons commencé à discuter des mises à jour. Et ce même s’il a d’abord fait l’éloge de Circle to Search. Nous n’avons pas vraiment utilisé le mot « IA » une seule fois », a-t-il expliqué.

Nous nous sommes contentés de dire : « Voici ce que vous pouvez faire avec et comment cela vous aide ». Et Samat prévoit de continuer à diffuser les avantages des nouvelles fonctionnalités d’Android au lieu d’insister sur le fait que l’IA est à l’origine de la plupart d’entre elles.

Kerry Wan/ZDNET

La grande nouveauté de Gemini Live est la possibilité de pointer la caméra du smartphone sur n’importe quoi et d’en discuter immédiatement.

Deux premiers cas d’usage pour Gemini Live

J’ai pu tester la fonctionnalité dans une salle spéciale, où un vase en céramique trônait sur une table à côté de plusieurs échantillons de couleurs. Gemini Live, en conversation, a pu aider à décider quelles couleurs s’accorderaient le mieux sur le vase vierge grâce à des requêtes vocales et à la vidéo en direct de la caméra d’un Pixel 9 Pro XL.

Gemini Live sera également en mesure de reconnaître le contenu de partage d’écran et d’engager des conversations contextuelles autour de ce qu’il voit.

Samat cite ici l’exemple de quelqu’un en train de chercher des prix en ligne pour une nouvelle voiture et d’utiliser Gemini Live pour dire : « Quel est le prix moyen de toutes les choses que nous venons de regarder ? » Gemini Live pourrait alors calculer la moyenne du coût de chaque véhicule consulté au cours de la session.

Le projet Astra arrive d’abord sur le smartphone

Ces capacités sont issues du projet Astra de DeepMind. Cette recherche vise à développer un « assistant IA universel » qui traite simultanément la voix, les images et le contexte environnemental.

Samat admet que si ces fonctionnalités qui arrivent sur le smartphone sont passionnantes, elles ne font qu’effleurer la surface de ce qui est possible. « Gemini et les capacités Astra préfigurent en quelque sorte ce qui est possible sur les lunettes » dit-il.

Lors de la conférence Google I/O de l’année dernière, le fondateur de Google Sergey Brin a indiqué que les lunettes connectées alimentées par le projet Astra étaient prometteuses. Kerry Wan/ZDNET

Imaginez que vous feuilletiez un manuel d’ingénierie, illustre Samat. Et que vous demandiez à Gemini de se souvenir d’un diagramme figurant sur les pages. Plus tard, au moment de résoudre un problème, vous demandez à Gemini de se référer aux connaissances du diagramme qu’il a vu plus tôt. « Cela peut vous aider à résoudre des problèmes. C’est assez impressionnant » dit-il.

La question de la continuité de l’utilisation de la technologie

Cette fenêtre contextuelle de connaissances est un élément clé de la puissance et de la promesse de ces nouvelles fonctions multimodales dans Gemini Live.

Il faut donc prendre note de ces détails ambiants dès le départ de l’expérience.

Samat dit que cette continuité est un défi majeur à l’heure actuelle. « Les choses qui semblent les plus magiques sont celles qui sont les plus transparentes », poursuit-il. « Nous essayons tous d’y parvenir et nous y travaillons dur ».

Puiser dans les échecs des Google Glass

M. Samat fait également référence à la décennie d’expérience de Google en matière de réalité augmentée. Et au lancement des Google Glass en 2013.

Ce sont pour lui des exemples de la manière d’aborder cette technologie en tenant compte des préoccupations en matière de protection de la vie privée.

Par exemple, M. Samat estime que le travail de pionnier de Google dans le domaine des « wearables » a joué un rôle important dans l’élaboration de la norme industrielle consistant à alerter les passants lorsqu’une caméra placée sur les lunettes enregistre des images.

Les agents vont-ils éclipser les applications ?

La montée en puissance des agents d’intelligence artificielle sur les smartphones, comme Gemini 2.0 de Google, qui alimente des fonctions telles que Gemini Live et Project Astra, suscite l’inquiétude de certains développeurs. Ils craignent que leurs applications ne soient mises à l’écart par l’utilisation des agents d’IA.

« Je suis optimiste sur ce point. Je pense qu’il s’agira d’un partenariat où les deux parties travailleront ensemble » dit sur ce point Sameer Samat.

T-Mobile a dévoilé un smartphone alimenté uniquement par des agents d’intelligence artificielle lors du MWC de l’année dernière. Kerry Wan/ZDNET

En ce sens, M. Samat considère les agents embarqués comme des moyens permettant aux utilisateurs d’accomplir davantage de tâches plutôt que de les remplacer entièrement.

Source link