Les capacités vocales avancées de ChatGPT arrivent, après un hiatus de quelques semaines pour serrer les boulons — et éviter une autre polémique avec une voix connue. Les abonnés ChatGPT Plus pourront tous en bénéficier d’ici cet automne, mais le déploiement a d’ores et déjà commencé.
Sur iOS et Android, l’application ChatGPT est déjà équipée d’un système d’écoute et de synthèse vocale plutôt performant, et en français. Mais GPT-4o, le dernier modèle de langage le plus performant d’OpenAI, améliore encore les choses pour cette fonction vocale. Les conversations sont plus naturelles et en temps réel ; elles peuvent être interrompues à tout moment. La voix synthétique peut aussi détecter les émotions… et y répondre.
4 voix de synthèse seront proposées
La démonstration faite durant la présentation de GPT-4o au printemps n’est pas tombée dans l’oreille d’une sourde. Scarlett Johansson, l’actrice qui avait prêté sa voix à la (fausse) assistante vocale du film « Her », avait en effet menacé OpenAI d’une plainte : il se trouve que « Sky », une des voix de ChatGPT, lui ressemblait beaucoup. L’affaire s’est terminée par la suspension de « Sky », sans qu’il y ait de suite judiciaire.
Lire OpenAI suspend l’une des voix de ChatGPT sur fond de conflit avec Scarlett Johansson
Cette affaire explique peut-être pourquoi OpenAI a préféré prendre son temps avant de déployer les fonctions vocales avancées du bot. Le déploiement de la version alpha a été lancé hier auprès d’une poignée d’utilisateurs de ChatGPT Plus, la formule payante du service. La fonction sera étendue progressivement au cours des prochaines semaines, et elle sera entièrement disponible à tous les abonnés à l’automne prochain.
Les utilisateurs actuels peuvent toujours surveiller une notification dans l’app ChatGPT, ou un courriel d’OpenAI leur annonçant la bonne nouvelle.
Durant ces dix derniers mois, OpenAI a testé les capacités vocales de ChatGPT avec plus de 100 testeurs externes parlant 45 langues dans 29 régions différentes. Ces expérimentations ont permis de réduire la sélection de voix à quatre, créées avec des acteurs vocaux. L’entreprise s’est assurée que le bot ne puisse pas « imiter les voix d’autres personnes, qu’il s’agisse d’individus ou de personnalités publiques ». La leçon a été apprise, visiblement.
La sécurité a également été renforcée pour détecter et refuser certains contenus ; des filtres « reconnaîtront et bloqueront toutes les demandes de génération de contenus musicaux et audio protégés par des droits d’auteur ». À tester, bien sûr.
L’entreprise explique également qu’elle a renforcé les capacités du modèle pour supporter « des millions de conversations vocales simultanées et en temps réel, tout en maintenant une faible latence et une qualité élevée. » Il est vrai aussi que toute cette technologie coûte cher !
Les fonctionnalités vidéo et le partage d’écran, elles aussi présentées en mai dernier, seront lancées à une date ultérieure. Un point d’étape sera publié au mois d’août.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.