Sortie le 25 septembre, une version expérimentale de ChatGPT, l’intelligence artificielle (IA) générative d’OpenAI, n’est accessible qu’aux abonnés payants déboursant la coquette somme de 23 euros par mois. Elle mérite pourtant notre curiosité, car elle donne un « œil » à cette IA, l’autorisant à déchiffrer les images, ainsi qu’une « bouche », lui permettant de soutenir de véritables discussions à l’oral.
Ces nouveaux « sens » changent-ils l’utilité de cette IA conversationnelle, qui ne passait jusqu’à présent que par l’écrit ? Pour le vérifier, nous avons interagi avec elle pendant quelques heures, sur un smartphone et en français. En voici un premier aperçu :
Des échanges presque naturels
Lorsqu’on pose une question de vive voix à ce ChatGPT en version bêta, sa réponse vocale est identique à celle qu’il donnerait à l’écrit. Il y a pourtant quelque chose de plus naturel, agréable et reposant à échanger à l’oral lorsqu’on est au calme et qu’on a du temps.
Cela paraîtra particulièrement évident aux personnes qui n’aiment pas taper sur smartphone. Les grands curieux, eux, seront tentés de rebondir sur les réponses de l’IA, comme s’ils discutaient avec un infatigable érudit (bien que parfois imprécis), comme le montre cet exemple :
L’échange est d’autant plus fluide que ChatGPT comprend étonnamment bien les requêtes orales, même complexes, et qu’il s’exprime dans un français clair et logique, avec une voix presque naturelle, bien que mâtinée d’une légère coloration anglophone.
Même si de petites défaillances vocales affleurent parfois, on n’a pas l’impression de s’adresser à un robot dur d’oreille comme l’assistant vocal de Google, qui ne comprend vraiment bien que les demandes simples comme la météo ou l’âge des célébrités. Au passage, on constate que ChatGPT progresse : dans le cadre de nos tests, il a commis moins d’erreurs franches que par le passé, quitte à répondre parfois de façon évasive.
Face aux questions intimes, ce ChatGPT expérimental réplique de façon désincarnée. Il s’exprime avec froideur, par points numérotés, ne perdant aucune occasion d’avertir qu’en tant que machine, il est dépourvu de sentiments. Ses blagues tombent à plat, mais son ton de voix est agréable et sa détermination à nous servir si obstinée que certains pourront peut-être s’y attacher. Probablement pas au point de s’en amouracher, tel le personnage joué par Joaquin Phoenix dans le film Her (2013), mais peut-être suffisamment pour lui réserver une place dans leur quotidien.
Le fantasme de l’ordinateur parlant n’est toutefois pas réalisé : ChatGPT sait faire peu de choses pour le moment. Il est incapable de programmer un mémo ou de réserver un billet de train et sa principale compétence est d’aller récupérer des informations sur Internet pour ensuite les résumer. Sans fuir les questions politiques, médicales ou psychologiques, pour lesquelles il est souvent d’assez bon conseil, même s’il répond de façon très générale, sans prendre de risques. Et sans jamais citer ses sources, ce qui ne manquera pas de fâcher les éditeurs de sites d’information, certains s’estimant pillés, voire court-circuités.
Déchiffrer les images
Outre la parole, ce nouveau ChatGPT est doué de la vue : à ce ChatGPT Vision, comme l’a baptisé son éditeur OpenAI, on peut soumettre des images photographiées par smartphone ou récupérées sur Internet. A première vue, ses analyses paraissent impressionnantes : il lit les plans de métro, déchiffre les graphiques ou les cartes et comprend généralement bien les éléments constitutifs des images qu’on lui soumet.
Lorsqu’on se promène dans un zoo, par exemple, il identifie souvent correctement les félins et donne quelques explications à leur propos – par écrit car la voix de ChatGPT ne fonctionne pas quand son œil travaille. Il identifie les plantes d’intérieur et donne des conseils d’arrosage. Lorsqu’on lui montre une coupe de la terre ou une vue anatomique d’un crâne aux légendes intimidantes de brièveté, il les explique clairement.
ChatGPT Vision peut aussi donner des conseils esthétiques ou gastronomiques, suggérer une recette en analysant la photo d’un frigo et donner des pistes d’amélioration pour une photo ou une décoration intérieure. Mais pour l’heure, il lit mal ces images. Ses conseils, assez généraux, peuvent faire réfléchir, mais sont souvent insuffisamment précis, créatifs, et personnalisés pour aider réellement.
Par ailleurs, lorsqu’on lui pose une question précise, il se trompe. Ses réponses aux problèmes mathématiques sont souvent fausses, ses itinéraires de métro peuvent être erronés, ses lectures des graphiques approximatives ou inexactes, ses interprétations des dessins humoristiques mauvaises, bien qu’énoncées avec assurance. Lorsqu’on lui montre un vélo ou un moteur de voiture, il peut se tromper en identifiant le réservoir d’huile ou le dérailleur.
Le Monde
Offre spéciale étudiants et enseignants
Accédez à tous nos contenus en illimité à partir de 8,99 euros par mois au lieu de 10,99 euros
S’abonner
Cette toute première version de ChatGPT Vision donne des réponses souvent floues ou inexactes, et n’est pour cette raison pas encore un outil convaincant. En revanche, la capacité de ChatGPT à converser à l’oral est prometteuse. Au point, peut-être, de préfigurer le futur des IA vocales.