Dans la perspective d’une interface plus intuitive et d’une utilisation avec davantage de fluidité, OpenAI informe du déploiement de nouvelles fonctionnalités en rapport avec la voix et l’image pour son agent conversationnel d’IA ChatGPT.
Il sera désormais possible d’avoir des conversations vocales bidirectionnelles avec ChatGPT. Cette capacité s’appuie sur un nouveau modèle de synthèse vocale pouvant générer un son de type humain depuis un texte et un échantillon de parole de quelques secondes seulement.
Des voix ont été créées en collaboration avec des acteurs professionnels et cinq options seront disponibles. Pour la transcription des paroles des utilisateurs en texte, le système open source de reconnaissance vocale Whisper d’OpenAI est également utilisé.
À la marnière de Google Lens
En montrant une ou plusieurs images à ChatGPT, celui-ci pourra résoudre des problèmes, planifier des repas, analyser des graphiques complexes. Via un outil de dessin de l’application mobile, l’attention pourra être concentrée sur une partie de l’image, afin de guider ChatGPT.
Une version multimodale et optimisée des grands modèles de langage GPT-3.5 et GPT-4 est utilisée pour comprendre les images. La surprise est que GPT-3.5 soit cité, au même titre que GPT-4 qui est nativement multimodal. Il peut s’agir de photos, de captures d’écran, ainsi que des documents contenant à la fois du texte et des images.
Le déploiement est progressif. Il concerne d’abord les utilisateurs de ChatGPT Plus et ChatGPT Enterprise au cours des deux prochaines semaines. La voix arrive sur Android et iOS, tandis que les images seront disponibles sur l’ensemble des plateformes.
Use your voice to engage in a back-and-forth conversation with ChatGPT. Speak with it on the go, request a bedtime story, or settle a dinner table debate.
Sound on ? pic.twitter.com/3tuWzX0wtS
— OpenAI (@OpenAI) September 25, 2023
OpenAI dit agir avec prudence
Dans sa communication, OpenAI insiste sur des risques inhérents à un modèle d’IA pouvant simplement et rapidement créer une voix, comme l’usurpation de l’identité de personnalités publiques. Une raison pour laquelle un tel modèle n’est pas disponible à grande échelle.
OpenAI insiste aussi sur le fait que les modèles basés sur la vision présentent des défis. Des mesures techniques ont été prises pour limiter la capacité de ChatGPT à analyser et faire des déclarations directes sur des personnes. » ChatGPT n’est pas toujours exact et les systèmes devraient respecter la vie privée des individus. «
Par ailleurs, OpenAI souligne l’efficacité de son modèle pour transcrire des textes en anglais, mais précise que les performances sont médiocres dans d’autres langues. Une mise en garde qui concerne en particulier des transcriptions d’écriture non romaine.