Après le texte, les images et la vidéo, OpenAI s’attaque à la voix. Le créateur de ChatGPT a dévoilé un aperçu d’un nouvel outil baptisé Voice Engine, qui clone n’importe quelle voix et n’importe quel accent : il lui suffit d’écouter 15 secondes de la voix originale. De quoi émerveiller… et inquiéter.
Après ChatGPT et Dall-E, OpenAI a frappé un gros coup il y a quelques semaines avec Sora, une IA qui génère des vidéos bluffantes de réalisme à partir d’une simple requête texte. Le modèle sera d’ailleurs disponible dans le courant de l’année.
Des voix troublantes de réalisme
Mais l’entreprise californienne ne s’arrête pas en si bon chemin : elle a en effet présenté Voice Engine, un nouvel outil qui permet de cloner des voix à partir de 15 secondes d’enregistrement. Le résultat est là aussi tout à fait saisissant, les voix clonées sonnant très réalistes à l’oreille, avec des intonations naturelles proches de celles de leur modèle. OpenAI a mis en ligne plusieurs extraits sur son site.
Le développement de Voice Engine a débuté en 2022 et se base sur l’interface de programmation text-to-speech basée sur Whisper, l’excellent modèle IA conçu pour transcrire et traduire la parole en texte. Cette API sert déjà à faire parler ChatGPT.
Lire ChatGPT pourrait bientôt remplacer Google Assistant sur votre smartphone Android
OpenAI a plusieurs idées pour utiliser Voice Engine : le moteur peut fournir une assistance à la lecture pour les enfants et les personnes ne sachant pas lire ; à traduire du contenu (cela fonctionne aussi en français) ; à communiquer avec des locuteurs de langues peu pratiquées ; à aider les personnes ayant perdu la voix…
Voice Engine pourrait également être utilisé dans le cadre de podcasts audio, voire à la radio ou pour créer des livres audio (au grand désespoir des professionnels humains de ces secteurs). TechCrunch est tombé sur la grille de prix que pourrait pratiquer OpenAI : 15 $ pour un million de caractères (environ 162.500 mots, soit l’équivalent d’Oliver Twist de Dickens). Ce qui est plutôt abordable.
Cet outil a beau être paré des meilleures intentions, il ne fait malheureusement aucun doute qu’il sera détourné à des fins malveillantes. Le clonage de voix par intelligence artificielle a déjà prouvé sa dangerosité, notamment avec ces vrais appels automatisés d’un faux Joe Biden. C’est pourquoi OpenAI a pris des précautions.
Lire Des milliers de faux appels de Joe Biden grâce à l’IA n’auraient coûté que 500 dollars
OpenAI reconnait tout d’abord que cloner des voix pose de sérieux risques, en particulier pendant une année électorale bien chargée. C’est pourquoi l’entreprise « collabore avec ses partenaires des gouvernements américains et internationaux, des médias, du secteur du divertissement, de l’éducation, de la société civile et au-delà » pour intégrer leurs retours durant le processus de développement.
D’une part, les partenaires qui ont accès à Voice Engine se sont pliés aux conditions d’utilisation d’OpenAI, qui interdisent l’usurpation d’identité ni l’exploitation d’une voix sans le consentement de la personne. Ces partenaires doivent également annoncer la couleur et signifier clairement que la voix a été générée par l’intelligence artificielle.
D’autre part, des mesures de sécurité ont été mises au point, comme des filigranes pour retracer l’origine d’une voix et « une surveillance proactive de son utilisation ». Difficile pour autant d’être complètement rassuré… OpenAI précise que la technologie n’est pas disponible pour tout un chacun « pour le moment».
En publiant cet aperçu, l’entreprise espère provoquer un débat sur les politiques visant à « protéger l’utilisation par l’IA des voix des individus » et « éduquer le public dans la compréhension des capacités et des limites des technologies IA ». En attendant le premier dérapage ?
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Par : Opera
Source :
OpenAI