Dans une vidéo publiée à la mi-septembre sur Instagram, le général de Gaulle discourt dans un italien parfait avant de passer au hindi avec aplomb. Dans une autre séquence publiée sur TikTok le même jour, l’humoriste Jonathan Cohen raconte une courte anecdote dans quatre langues avec une improbable virtuosité.
Tous deux n’ont en réalité jamais enregistré ces séquences : ils les ont tournées en français. C’est une intelligence artificielle (IA) nommée HeyGen, lancée au début du mois d’août, qui les a adaptées en langue étrangère entièrement automatiquement. Cet outil sophistiqué est capable de transcrire une vidéo française en un long texte, puis de traduire ce dernier automatiquement dans l’une des huit langues disponibles, tout en synthétisant une nouvelle piste vocale remplaçant l’originale.
Plus surprenant encore : cette IA modifie le visage du personnage en changeant les mouvements de ses lèvres pour les synchroniser parfaitement avec sa fausse voix étrangère. Le résultat est frappant de naturel, ce qui pousse certains influenceurs à qualifier HeyGen de « dinguerie » ou de machine à générer des « doublages parfaits ». Et qui génère « de grosses craintes dans le secteur », confie au Monde Jean-Philippe Content, directeur commercial d’Imagine, un studio de doublage.
Voix neutre et vocabulaire appauvri
Les vidéos produites avec HeyGen ne sont pourtant pas dénuées d’imperfections. Sur plusieurs séquences, des sourires et certaines expressions faciales sont gommés, tout comme le chewing-gum mâché par Jonathan Cohen. Ces altérations touchent également les voix : « Côté jeu, c’est bien simple, il n’y en a pas, assène Sarah Van Rossom, ingénieure du son ayant travaillé dans le doublage. C’est très plat, un texte récité sans émotion. »
Tout le contraire du travail des acteurs qu’emploient les studios de doublage, recrutés pour leur capacité à transposer les intonations et les émotions d’une culture à l’autre. « Lorsqu’on attribue un personnage, on essaye souvent six à dix acteurs » explique Mathieu Taieb, cofondateur du studio Dubbing Brothers. Charlotte Correa, directrice artistique en doublage, doute qu’une IA parvienne un jour au même résultat : « Il faudra qu’elle réussisse à transposer la musicalité d’une langue à l’autre, avec ses accents toniques, et qu’elle déplace les émotions au bon endroit de la phrase, qui varie selon la langue. »
En outre, les vidéos produites par HeyGen appauvrissent le vocabulaire des personnages. « L’adaptation est assez médiocre, juge ainsi Mathieu Taieb. C’est très compliqué de traduire tout en adaptant le registre de langue du personnage et en trouvant les mots justes pour exprimer ses émotions ou son humour. » Un exercice qui donne habituellement lieu « à un ping-pong » entre les doubleurs et leur commanditaire. « C’est beaucoup plus compliqué que la traduction d’un document », explique Mathieu Taieb.
Dans les vidéos produites par HeyGen, la version anglaise est par ailleurs souvent plus lente que l’originale en français, puisque l’anglais utilise 20 à 25 % de mots en moins, selon les professionnels interviewés. A l’inverse, lorsque l’on convertit une vidéo anglaise en français, la voix est très accélérée. « C’est pour ça qu’on a besoin d’adapter les textes », ajoute Mathieu Taieb.
HeyGen souffre d’autres insuffisances. Il gomme par exemple les « r » roulés du général de Gaulle et coupe parfois des phrases entières, faute d’avoir réussi à les traduire. Ses concepteurs admettent qu’il vaut mieux l’utiliser sur des vidéos sans bruit de fond et dans lesquelles parle un seul personnage.
« Le danger n’a jamais été aussi proche »
Les doubleurs n’ont-ils dès lors aucun souci à se faire ? Pas forcément, selon Jean-Philippe Content : « J’en entends parler depuis quinze ans, le danger n’a jamais été aussi proche. D’ici deux ans, je pense que des doubleurs commenceront à adopter ces outils. En espérant que d’ici là, une loi cadre leur usage. » Charlotte Correa, elle, craint que « rapidement, [leurs] clients, les majors, privilégient le coût par rapport à la qualité » et se tournent vers ce type de solution, plus économique, plutôt que de chercher à se plier aux standards du doublage en France, particulièrement élevés.
Le Monde
Offre spéciale étudiants et enseignants
Accédez à tous nos contenus en illimité à partir de 8,99 euros par mois au lieu de 10,99 euros
S’abonner
Dans l’immédiat, les professionnels interrogés verraient plutôt HeyGen conquérir d’autres pays n’ayant pas les moyens de doubler les fictions étrangères, ou imaginent un usage futur dans le secteur de la formation pour adapter des contenus pédagogiques à chaque public. Les producteurs de contenus sur Internet pourraient aussi s’en servir pour conquérir des publics étrangers. Du côté des médias, Brut a annoncé son intention d’expérimenter l’outil.
Car HeyGen, parce qu’il synchronise le mouvement de la bouche et préserve la texture de la voix, incarne tout de même un tournant. « On pourrait imaginer qu’un acteur surdoué fasse toutes les voix d’un film, et qu’elles soient transformées par IA pour adopter le timbre de l’acteur d’origine », projette ainsi Charlotte Correa. Après quoi le mouvement des lèvres serait adapté.
De l’avis de tous, cela poserait toutefois plusieurs soucis à surmonter. « J’imagine mal une voix clonée par IA se casser, murmurer, véhiculer des émotions fines, restituer des nuances dans la respiration », énumère Mme Correa. Quant à la synchronisation des lèvres, elle observe que l’IA déforme les visages. Or « un mouvement de bouche peut changer l’intention d’un personnage ». « C’est chose simple quand il converse sans émotions face à la caméra ; c’est autre chose quand on a beaucoup d’acteurs à l’écran et qu’ils bougent dans tous les sens » avertit par ailleurs Mathieu Taieb. Sans compter toutes les « questions techniques et juridiques sur l’empreinte vocale du comédien d’origine ». Et sur la rémunération du comédien de doublage.