Le labo parisien d’IA Kyutai lance un modèle de traitement de la voix

Le labo parisien d’IA Kyutai lance un modèle de traitement de la voix


Kyutai lance Moshi. Ces deux noms mignons mais cryptiques empruntent aux mots japonais « sphère » et « allo ? ». L’un désigne un laboratoire parisien d’intelligence artificielle (IA) fondé en novembre, et l’autre, son premier outil rendu public, un modèle de traitement de la voix.

Comme ChatGPT ou Gemini pour le texte, comme DallE ou Midjourney pour les images, celui-ci se place sur le terrain des assistants virtuels, mais vocaux. Capable de décrypter une instruction orale et de générer une réponse dans un style conversationnel, Moshi se veut une alternative aux outils équivalents d’OpenAI (le créateur de ChatGPT), Google ou Apple (Siri). Mais elle se revendique fabriquée en France et « open source », c’est-à-dire utilisable et modifiable librement.

Moshi est la première publication de Kyutai depuis son lancement en grande pompe, le 17 novembre. Ce laboratoire doté de 300 millions d’euros est atypique sur la scène parisienne, car il est financé par des mécènes : les Français Xavier Niel (fondateur de l’opérateur télécoms Iliad et actionnaire du Monde) et Rodolphe Saadé, PDG de l’armateur CMA-CGM, ainsi que l’Américain Eric Schmidt, ex-PDG de Google devenu investisseur.

Un modèle « hybride » financé par des mécènes

Il a été créé en débauchant six chercheurs en IA issus des géants américains comme Meta ou Google-DeepMind. Son projet est de « fabriquer des modèles de fondation en IA innovants et de les publier, résume son directeur Patrick Perez. L’idée à l’origine de Kyutai est de créer un hybride bénéficiant du meilleur des deux mondes, la recherche académique pour sa liberté et le milieu de l’entreprise pour ses moyens. »

Moshi se veut donc innovant, même par rapport à la concurrence mondiale. Kyutai a choisi le domaine du son, moins occupé que celui des modèles de génération de texte (où opèrent déjà OpenAI, Google ou Anthropic, mais aussi les français Mistral ou LightOn). « D’ordinaire, les IA vocales utilisent plusieurs modèles successifs : l’un pour détecter la présence d’une instruction sonore, un autre pour la transcrire en texte, un autre pour comprendre la requête, un autre pour produire la réponse et un dernier pour la transformer en voix. Mais cela produit une latence de trois à cinq secondes, désagréable dans une conversation », explique le chercheur Neil Zeghidour, qui a travaillé chez Google sur le modèle d’IA musicale AudioLM.

Pour obtenir des réponses « en temps réel » (en quelques centaines de millisecondes), Moshi s’appuie sur un modèle d’IA unique, entraîné directement sur des extraits sonores. Cela permet de mieux décoder et imiter les émotions ou les accents, assurent les chercheurs. Moshi pourrait adopter « 70 styles et tons » : chuchoter, prendre une « voix de pirate », parler anglais tel un Français… Autant de nuances inspirées de la voix d’une actrice enregistrée.

Il vous reste 38.91% de cet article à lire. La suite est réservée aux abonnés.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.