Trois secondes : c’est la durée qu’il faut à cette IA pour imiter n’importe quelle voix humaine.
Microsoft vient de présenter un modèle de synthèse vocale capable de simuler fidèlement la voix d’une personne à partir d’un échantillon audio très court.
Ce modèle d’IA, baptisé « VALL-E », a été entraîné avec plus de 60 000 heures de conversation en anglais, soit « des centaines de fois plus que les systèmes existants », décrit Microsoft.
VALL-E n’imite pas seulement l’intonation d’une voix, il est aussi capable de « préserver l’émotion du locuteur et l’environnement acoustique de l’invite acoustique dans la synthèse ».
La technologie n’est pas prête pour le monde réel
Ce modèle de langage permet diverses applications de synthèse vocale, telles que l’édition vocale et la création de contenu audio, en combinant d’autres modèles d’IA générative comme GPT-3.
Toutefois, Microsoft ne laisse pas les considérations éthiques de côté. « Puisque VALL-E peut synthétiser la parole en conservant l’identité du locuteur, il peut comporter des risques potentiels de mauvaise utilisation du modèle, comme l’usurpation de l’identification de la voix ou l’usurpation de l’identité d’un locuteur spécifique », avertit Microsoft.
A ce stade, l’IA n’est pas accessible au public. Pour être utilisé dans le monde réel, Microsoft indique que ce système « devrait inclure un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix et d’un modèle de détection de la parole synthétisée », pour ainsi être en mesure de dire rapidement si ce qu’on entend est une voix humaine ou une voix synthétique.
Des risques cyber
L’IA de Microsoft peut causer des problèmes de sécurité si elle est mise entre de mauvaises mains. Des imposteurs pourraient par exemple associer VALL-E avec la technologie du deepfake pour créer de fausses vidéos. Les « deepfakes », qui consistent à recréer synthétiquement par l’IA du contenu audio, visuel et vidéo d’êtres humains, constituent une menace potentielle en matière d’usurpation d’identité depuis plusieurs années.
VALL-E pourrait aussi permettre à des cybercriminels d’imiter la voix d’une victime potentielle au téléphone, notamment pour autoriser des opérations.
Récemment, une équipe de chercheurs en cybersécurité ont découvert que chatGPT, d’openAI, commençait également à être détourné pour écrire des logiciels malveillants.
(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/fr_FR/all.js#appId=243265768935&xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));