Au milieu des grésillements surgit une voix, reconnaissable entre toutes : « Quoi qu’il arrive, la flamme de la Résistance française ne doit pas s’éteindre et ne s’éteindra pas ! » Le général de Gaulle parle. Ou plutôt son clone vocal, développé pour Le Monde par des informaticiens et des chercheurs de l’Institut de recherche et coordination acoustique/musique (Ircam) et d’Ircam Amplify, sa filiale technologique. Le défi était inédit : reconstituer l’audio de l’appel du 18 juin 1940, dont l’enregistrement original, s’il a jamais existé, a disparu. Un projet pour mieux cerner le fonctionnement et les promesses des technologies de synthèse reposant sur l’intelligence artificielle, et de leurs risques – notamment les deepfakes.
« Nous avons développé un modèle informatique qui peut reproduire automatiquement toutes les émotions et articulations dynamiques d’une voix existante », explique Axel Roebel, directeur de recherche à l’Ircam. Il suffit de quelques minutes d’enregistrement d’une voix pour en définir l’ADN sonore, puis pour la reproduire ou la modifier à volonté. A la différence des nombreux outils « text-to-speech », qui génèrent, à partir d’un texte, une voix synthétique intelligible mais souvent robotique et monotone, la technologie de clonage vocal permet de reproduire une voix en conservant son naturel et en modulant ses émotions.
Ces voix de synthèse, et leur déclinaison vidéo, inspirent la création audiovisuelle. L’avatar numérique de la chanteuse Dalida a répondu aux questions de Thierry Ardisson, en 2022, sur France Télévisions, et l’écrivain de science-fiction Isaac Asimov s’est confié post mortem dans un documentaire diffusé sur Arte.
Encadré par des chercheurs en éthique et des historiens, Le Monde a fixé à son projet une limite nette : ne faire dire au clone vocal du Général que ce qui a été réellement dit le 18 juin 1940, sans aucun propos inventé, aucune (fausse) révélation post mortem.
Les paradoxes de la technique
Première étape : enregistrer une version audio du texte de l’appel. L’acteur et metteur en scène François Morel s’est prêté à cet exercice « insolite, donc intéressant ». Les chercheurs de l’Ircam ont ensuite défini l’ADN vocal de Charles de Gaulle grâce à une dizaine d’interventions, enregistrées par la BBC entre 1940 et 1944. Identité vocale qu’ils ont finalement appliquée sur l’interprétation de François Morel, au terme de cinq jours de calculs informatiques. L’émotion et le rythme du discours sont ceux de l’acteur, le timbre et l’identité de la voix, ceux du Général. Le résultat est à la fois étrange, fragile et saisissant. « Le dernier mot est-il dit ? L’espérance doit-elle disparaître ? », entonne le clone vocal, roulant légèrement les « r », la gorge serrée, avant de conclure d’un vibrant : « Non ! »
Il vous reste 27.73% de cet article à lire. La suite est réservée aux abonnés.