la nouvelle technologie vocale d’IA de Microsoft atteint pour la premire fois la parit avec l’humain, elle est si aboutie que par peur d’une utilisation abusive, elle ne sera pas publie

Microsoft Defender Threat Intelligence pour cartographier l'internet, et Microsoft Defender External Attack Surface Management



Une quipe de recherche de Microsoft a prsent VALL-E 2, un systme d’IA considrablement amlior pour la synthse vocale. Cependant, ils estiment que le monde n’est pas prt pour sa sortie.

Microsoft Corporation est une multinationale amricaine et une entreprise technologique dont le sige se trouve Redmond, dans l’tat de Washington. Ses produits logiciels les plus connus sont la gamme de systmes d’exploitation Windows, la suite d’applications de productivit Microsoft 365, la plateforme de cloud computing Azure et le navigateur web Edge. Ses produits matriels phares sont les consoles de jeux vido Xbox et la gamme d’ordinateurs personnels cran tactile Microsoft Surface. Microsoft a t classe n 14 dans le classement Fortune 500 de 2022 sur les plus grandes entreprises des tats-Unis en fonction de leur chiffre d’affaires total, et elle a t le plus grand fabricant de logiciels au monde en termes de chiffre d’affaires en 2022, selon Forbes Global 2000. Elle est considre comme l’une des cinq grandes entreprises amricaines de technologie de l’information, aux cts d’Alphabet (socit mre de Google), d’Amazon, d’Apple et de Meta (socit mre de Facebook).

L’intelligence artificielle (IA), dans son sens le plus large, est l’intelligence dont font preuve les machines, en particulier les systmes informatiques. Il s’agit d’un domaine de recherche en informatique qui dveloppe et tudie des mthodes et des logiciels permettant aux machines de percevoir leur environnement et d’utiliser l’apprentissage et l’intelligence pour prendre des mesures qui maximisent leurs chances d’atteindre des objectifs dfinis. Ces machines peuvent tre appeles « IA ».

Selon l’quipe de Microsoft qui a prsent VALL-E 2, il s’agit du premier systme atteindre des performances de niveau humain pour gnrer de la parole partir de texte, mme pour des locuteurs inconnus ne disposant que d’un court chantillon de parole. Il peut crer de manire fiable des phrases complexes ou comportant de nombreuses rptitions.

Les logiciels disponibles dans le commerce, comme ElevenLabs, sont capables de cloner des voix, mais ncessitent un matriel de rfrence plus long. VALL-E 2 peut le faire en quelques secondes.

VALL-E 2 s’appuie sur son prdcesseur VALL-E datant de dbut 2023 et utilise des modles de langage codecs neuronaux pour gnrer la parole. Ces modles apprennent reprsenter la parole comme une squence de codes, l’instar de la compression audio numrique. Deux amliorations cls rendent cette perce possible.

VALL-E 2 apporte deux innovations majeures

Premirement, VALL-E 2 utilise une nouvelle mthode « Repetition Aware Sampling » pour le processus de dcodage, o les codes appris sont convertis en paroles audibles. La slection des codes s’adapte dynamiquement leur rptition dans la squence de sortie prcdente.

Au lieu de slectionner au hasard les codes possibles comme VALL-E, VALL-E 2 passe intelligemment d’une mthode d’chantillonnage l’autre : Le « Nucleus Sampling » ne prend en compte que les codes les plus probables, tandis que l’chantillonnage alatoire traite toutes les possibilits de la mme manire. Cette commutation adaptative amliore considrablement la stabilit du processus de dcodage et vite les problmes tels que les boucles infinies.

La deuxime innovation majeure consiste modliser les codes des codecs en groupes plutt qu’individuellement. VALL-E 2 combine plusieurs codes conscutifs et les traite ensemble comme une sorte de « cadre ». Ce regroupement de codes raccourcit la squence d’entre pour le modle linguistique, ce qui acclre le traitement. En mme temps, cette approche amliore la qualit de la parole gnre en simplifiant le traitement des contextes trs longs.

Lors d’expriences menes sur les ensembles de donnes LibriSpeech et VCTK, VALL-E 2 a largement dpass les performances humaines en termes de robustesse, de naturel et de similarit de la parole gnre. Des enregistrements de 3 secondes des locuteurs cibles ont suffi. Avec des chantillons plus longs de 10 secondes, le systme a obtenu des rsultats nettement meilleurs. Microsoft a publi tous les exemples sur ce site web.

Les chercheurs soulignent que la formation de VALL-E 2 ne ncessite que des paires d’enregistrements vocaux et leurs transcriptions sans codes temporels.

Pas de publication en raison du risque lev d’utilisation abusive

Selon les chercheurs, VALL-E 2 pourrait tre utilis dans de nombreux domaines tels que l’ducation, le divertissement, l’accessibilit ou la traduction. Cependant, ils soulignent galement les risques vidents d’utilisation abusive, comme l’imitation de voix sans le consentement de l’interlocuteur. Par consquent, il s’agit pour l’instant d’un pur projet de recherche et Microsoft ne prvoit pas d’intgrer VALL-E 2 dans un produit ou d’en tendre l’accs au public.

Selon eux, il faudrait d’abord mettre au point un protocole permettant de s’assurer que la personne entendue a consenti la synthse, ainsi qu’une mthode de marquage numrique de ces contenus. Cette proposition s’inspire vraisemblablement de l’volution de l’industrie des modles d’images d’IA, o des filigranes comme le C2PA sont introduits. Cependant, ils ne rsolvent pas le problme existant de la reconnaissance fiable du contenu gnr par l’IA en tant que tel.

Sur la page du projet, Microsoft a prsent quelques dtails concernant VALL-E 2 :

VALL-E 2 est la dernire avance en matire de modles de langage codecs neuronaux qui marque une tape importante dans la synthse de la parole partir du texte (TTS), atteignant pour la premire fois la parit avec l’humain.

S’appuyant sur les fondements poss par son prdcesseur, VALL-E, la nouvelle itration introduit deux amliorations significatives pour accrotre ses performances : Le « Repetition Aware Sampling » affine le processus original d’chantillonnage du noyau en tenant compte de la rptition des jetons dans l’historique du dcodage. Il permet non seulement de stabiliser le dcodage, mais aussi de contourner le problme de boucle infinie rencontr dans VALL-E. La modlisation des codes groups organise les codes des codecs en groupes afin de raccourcir efficacement la longueur de la squence, ce qui permet non seulement d’augmenter la vitesse d’infrence, mais aussi de relever les dfis de la modlisation des longues squences.

Nos expriences, menes sur les ensembles de donnes LibriSpeech et VCTK, ont montr que VALL-E 2 surpasse les prcdents systmes TTS sans prise de vue en termes de robustesse de la parole, de naturel et de similarit avec le locuteur. C’est le premier systme de ce type atteindre la parit humaine sur ces critres de rfrence. De plus, VALL-E 2 synthtise systmatiquement une parole de haute qualit, mme pour des phrases qui sont traditionnellement difficiles prononcer en raison de leur complexit ou de leur caractre rptitif.

Cette prsentation est uniquement destine des fins de recherche et de dmonstration. Actuellement, nous n’avons pas l’intention d’intgrer VALL-E 2 dans un produit ou d’en largir l’accs au public.

VALL-E 2 atteint pour la premire fois la parit humaine en matire de performance TTS sans prise de vue. Dans ce contexte, la parit humaine indique que les mesures de robustesse, de naturel et de similarit de VALL-E 2 surpassent celles des chantillons de vrit terrain ( WER( GroundTruth) – WER(VALL-E 2) >0, CMOS(VALL-E 2) – CMOS(GroundTruth) >0, et SMOS(VALL-E 2) – SMOS(GroundTruth)>0), ce qui signifie que VALL-E 2 peut gnrer une parole prcise et naturelle dans la voix exacte du locuteur d’origine, comparable la performance humaine. Il est important de noter que cette conclusion est tire uniquement des rsultats exprimentaux obtenus sur les ensembles de donnes LibriSpeech et VCTK.

VALL-E 2 est un projet de recherche. Actuellement, nous n’avons pas l’intention d’incorporer VALL-E 2 dans un produit ou d’en tendre l’accs au public. VALL-E 2 pourrait synthtiser la parole en conservant l’identit du locuteur et pourrait tre utilis pour l’apprentissage ducatif, le divertissement, le journalisme, le contenu auto-crit, les fonctions d’accessibilit, les systmes de rponse vocale interactifs, la traduction, les chatbots, et ainsi de suite.

Bien que VALL-E 2 puisse parler d’une voix semblable celle du locuteur, la similitude et le naturel dpendent de la longueur et de la qualit de l’invite vocale, du bruit de fond, ainsi que d’autres facteurs. L’utilisation abusive du modle peut comporter des risques potentiels, tels que l’usurpation de l’identification de la voix ou l’usurpation de l’identit d’un locuteur spcifique. Nous avons men les expriences en supposant que l’utilisateur accepte d’tre le locuteur cible de la synthse vocale. Si le modle est gnralis des locuteurs inconnus dans le monde rel, il devrait inclure un protocole garantissant que le locuteur approuve l’utilisation de sa voix et d’un modle de dtection de la parole synthtise. Si vous souponnez que VALL-E 2 est utilis de manire abusive ou illgale, ou qu’il porte atteinte vos droits ou ceux d’autres personnes, vous pouvez le signaler.

Source : « VALL-E, A neural codec language model for speech synthesis » (Microsoft)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des performances de VALL-E 2 par rapport aux autres technologies de synthse vocale ?

Voir aussi :

VALL-E : l’IA de synthse vocale de Microsoft peut imiter n’importe quelle voix avec seulement un chantillon de trois secondes, y compris les motions et le ton d’un orateur

BASE TTS, le plus grand modle d’IA pour la synthse vocale montre des capacits mergentes, conu par les chercheurs d’Amazon, entran sur 100 000 heures de donnes vocales du domaine public

Meta dclare que son nouveau modle d’IA de synthse vocale est beaucoup trop dangereux pour tre rendu public, il pourrait tre utilis pour perfectionner les deepfakes ou dans des escroqueries



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.