Microsoft dévoile VALL-E 2, une nouvelle intelligence artificielle conçue pour imiter une voix humaine avec une précision inégalée. Redoutant que sa technologie soit exploitée par des individus malveillants, l’éditeur a choisi de ne pas proposer l’IA au grand public.
Microsoft vient de lever le voile sur VALL-E 2, une nouvelle intelligence artificielle capable d’imiter une voix humaine. Comme son nom l’indique, il s’agit de la seconde itération de VALL-E, un modèle de synthèse vocale d’une grande efficacité. Annoncée en janvier 2023, l’IA était capable d’imiter la voix d’un être humain en seulement trois secondes.
Cette seconde mouture se veut encore plus efficace. D’après Microsoft, il est impossible de différencier le deepfake vocal produit par VALL-E 2 de la voix d’une véritable personne. L’IA a atteint « la parité humaine pour la première fois », se félicite d’éditeur américain sur son site web. Jusqu’ici, les productions de l’IA pouvaient encore être repérées grâce à des petites imperfections dans la formulation ou l’intonation.
Pour améliorer le rendu de VALL-E, Microsoft a ajouté deux innovations dans la manière dont l’IA traite les données vocales. Ces changements de conception permettent à l’intelligence artificielle de synthétiser la parole avec précision et naturel, « même pour les phrases qui sont traditionnellement difficiles en raison de leur complexité ou de leurs phrases répétitives ».
À lire aussi : Pourquoi les victimes de deepfakes peinent à faire disparaître ces contenus du Web
Le danger des deepfakes vocaux
Microsoft estime que VALL-E 2 pourrait être utilisé dans le cadre des secteurs, comme « l’apprentissage éducatif, le divertissement, le journalisme, le contenu auto-écrit, les fonctionnalités d’accessibilité, les systèmes de réponse vocale interactifs, la traduction, le chatbot ». Par ailleurs, l’entreprise entrevoit la possibilité de se servir de l’IA pour aider les personnes en situation de handicap.
Sans surprise, Microsoft reste conscient des risques posés par son générateur de voix. En exploitant un modèle comme VALL-E, un individu malveillant serait en mesure d’usurper la voix d’un proche, d’une célébrité ou d’un homme politique lors d’un appel téléphonique. Il suffirait de passer un coup de fil pour convaincre quelqu’un de verser de l’argent sur un compte ou de communiquer des informations sensibles. Dans le communiqué, Microsoft indique avoir conscience des « risques potentiels dans l’utilisation abusive du modèle, tels que l’usurpation d’identité vocale ou l’usurpation d’un orateur spécifique ».
C’est la porte ouverte à tous les abus, d’autant que de nombreux cybercriminels exploitent déjà la technologie deepfake pour orchestrer des cyberattaques. Les contenus générés par l’IA ont déjà permis à des escrocs de réaliser des fraudes financières d’envergure. Citons également les risques en matière de désinformation.
Par précaution, Microsoft a donc refusé de proposer l’IA aux internautes. Il n’est « pas prévu d’intégrer VALL-E 2 dans un produit ou d’élargir l’accès au public » pour le moment. VALL-E 2 est uniquement conçu à des fins de recherche.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source :
Microsoft