Les intelligences artificielles créatrices et/ou imitatrices n’ont plus de limites. Après DALL-E qui génère des images à partir d’un texte et ChatGPT qui fait la conversation et a réponse à (presque) tout, voici venir VALL-E.
Créée par les chercheurs de Microsoft, cette intelligence artificielle peut réciter un texte en simulant n’importe quelle voix humaine. Il lui suffit d’un extrait de trois secondes pour reproduire une signature vocale et les intentions émotionnelles.
Ce système d’IA text-to-speech exploite la technologie EnCodec dévoilée par Meta en octobre 2022 et utilisée initialement pour de la compression audio dont la restitution est pilotée par un réseau neural.
3 secondes d’extrait pour imiter une voix
Plutôt que les formes d’onde utilisées habituellement, VALL-E analyse la voix en la découpant en éléments (ou tokens) différenciables et utilise un réseau neural pour simuler le rendu de la voix en dehors de l’extrait de base de trois secondes servant de référence.
L’IA peut alors restituer n’importe quel texte avec la voix (ou plutôt la signature vocale) de la personne. VALL-E a été entraînée sur la base LibriLight de Meta contenant 60 000 heures de discours en anglais issues de 7000 locuteurs.
Pour un meilleur rendu, il faudra un extrait sonore de plus de 3 secondes et une voix se rapprochant de celles sur lesquelles l’intelligence artificielle a été entraînée mais elle pourra alors restituer une voix se rapprochant de l’original et plus vivante que les voix de synthèse actuelles.
La perspective de dérives rapides
Outre le ton et l’intention émotionnelle, VALL-E peut aussi simuler l’environnement sonore, pour imiter par exemple un appel téléphonique. Divers exemples donnés sur le site officiel montrent l’état d’avancement et la qualité de l’imitation de VALL-E.
Les chercheurs de Microsoft ne livrent toutefois pas le code et n’en permettent pas l’expérimentation, comme pour DALL-E ou ChatGPT. Ils se disent bien conscients des risques de mauvais usages d’une telle technologies avec la possibilité d’imiter très facilement la voix de n’importe qui pour de l’usurpation d’identité.
Comme pour les autres IA, Microsoft veut d’abord disposer d’un mécanisme qui permettra de détecter une voix générée par VALL-E et veut faire en sorte qu’elle soit conforme avec les principes d’une IA déployée de façon responsable, indique le site Ars Technica.
A plus long terme, cet outil de synthèse vocale pourrait contribuer à la production en masse de contenus audio utilisant des voix plus réalistes, du divertissement (livres audio…) aux outils professionnels.