Le vertige des IA capables de doubler votre voix dans une langue étrangère

Le vertige des IA capables de doubler votre voix dans une langue étrangère


C’est une vidéo sur laquelle on voit un internaute qui se filme avec son téléphone en train de parler en anglais… Puis on revoit le même extrait, mais la personne s’exprime désormais en français, sans que son timbre de voix soit changé et sans que le mouvement de ses lèvres soit décalé. Puis, la vidéo recommence, cette fois-ci en allemand… Cette petite démo, mise en ligne le 11 septembre par un internaute sur le réseau social X (anciennement Twitter), illustre l’effet bluffant et troublant de nouveaux outils capables, grâce à l’intelligence artificielle (IA), de générer un doublage automatique, tout en clonant la voix de l’interlocuteur et en synchronisant sa diction. Déjà visionnée plus de 6 millions de fois, cette vidéo utilise un logiciel créé par une start-up américaine, HeyGen, mais d’autres entreprises, dont Google, possèdent des applications similaires. Cette nouvelle avancée de l’IA renforce les questions sur l’avenir de la traduction ou du doublage.

Sur le Web, plusieurs internautes, impressionnés ou amusés, ont essayé l’outil de HeyGen. Le consultant en numérique Michel Levy Provençal a testé cette « nouvelle fonction révolutionnaire de traduction automatique de vidéo » en espagnol, polonais, hindi… D’autres ont doublé une chanson de Jacques Brel, une conférence de presse de Lionel Messi ou un discours de Charles de Gaulle.

Le site de HeyGen permet d’essayer gratuitement l’outil sur environ deux minutes de vidéo, mais il faut passer par une file d’attente qui comptait, jeudi 14 septembre, plus de 100 000 documents. La start-up propose aussi des abonnements payants (par exemple 48 dollars (45 euros) par mois pour environ trente minutes de vidéo).

Questions et inquiétudes

Ces outils de doublage synthétique impressionnent, en assemblant plusieurs techniques d’intelligence artificielle pourtant déjà présentes sur le marché : la transcription du son vers le texte (Trint, DeepL ou YouTube, qui génère des sous-titres automatiques sur ses vidéos), la traduction (DeepL, ChatGPT, Google Translate…), la synthèse vocale de texte, et le « clonage » d’une voix à partir d’un enregistrement, comme va le proposer bientôt Apple avec son outil Personal Voice, qui cible les personnes sujettes aux extinctions de voix ou malades.

Les logiciels comme HeyGen font soupçonner des développements vertigineux de l’IA dans la traduction : demain, pourra-t-on entendre tout interlocuteur étranger traduit en direct dans les écouteurs de son smartphone ? Regarder toute vidéo ou film doublé dans n’importe quelle langue ?

Il vous reste 36.57% de cet article à lire. La suite est réservée aux abonnés.





Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.