IA vocal à la française : après Djingo, voici Moshi

IA vocal à la française : après Djingo, voici Moshi



C’était il y a 5 ans, soit une éternité dans le monde feutré de la tech. Orange annonçait tout feu tout flamme un assistant vocal nommé Djingo.

Moins d’un an après, l’opérateur historique remballait son assistant, qualifié de « coup d’essai » sur un marché ultra-concurrentiel largement dominé par les GAFAM.

Mais les français ont de la suite dans les idées.

« La toute première IA douée de parole accessible à tous »

Voici que Kyutai (prononcez « Cute AI » et signifiant « sphère » en Japonais), le labo d’IA lancé en novembre dernier par le groupe Iliad, annonce « la toute première IA douée de parole accessible à tous ». Pas mal non ? C’est français.

« En 6 mois seulement, avec une équipe de 8 chercheurs, le laboratoire de recherche Kyutai a développé, en partant de zéro, un modèle d’intelligence artificielle doté de capacités vocales inédites baptisé Moshi » fanfaronne un communiqué de presse.

La promesse est belle. Moshi permet de dialoguer « de façon fluide, naturelle et expressive avec une IA ».

5 ans plus tard, la concurrence est toujours aussi forte

De quoi en faire un « coach ou un compagnon », et ce via « l’incarnation de personnages » a grand renfort de synthèse vocale (“text-to-speech”).

Reste que Moshi se retrouve dans la même problématique que son prédécesseur Djingo.

5 ans plus tard, la concurrence est toujours aussi forte. Le rouleau compresseur de l’innovation et du marketing nord-américain fait toujours pression.

Montrer l’efficacité d’un écosystème

Apple annonce une IA embarquée dans ses iPhones, dont on ne sait cependant si elle touchera les rivages européens pour des questions de DMA. Microsoft positionne des assistants d’IA, nommés Copilot, dans Windows, Office 365, ou encore GitHub.

Google révolutionne Android et son search, et Amazon est à fond sur le RAG, c’est à dire l’optimisation des réponses des Chatbots. Et Facebook / Meta, comme a son habitude, utilise vos données pour former ses modèles.

Cette première réalisation dévoilée par laboratoire Kyutai doit montrer l’efficacité de l’écosystème mis en place par Xavier Niel en novembre dernier.

« Impérialisme français dans l’IA »

« J’espère que demain nos enfants utiliseront des algorithmes développés en France et dotés de nos spécificités culturelles » disait-il au lancement en novembre dernier.

De fait, c’est un point capital. La formation des algorithmes dépend essentiellement de la nature des données d’entraînement. Et ces données ne sont pas neutres.

Mieux, son ambition est de faire concurrence aux Gafam dans le domaine de l’IA. « J’aimerais que l’on parle dans le futur d’impérialisme français dans l’IA » assurait-il sur scène.

Créer « from scratch » un LLM

Une des ambitions de Kyutai est de créer « from scratch », un grand modèle de langage (LLM), de type ChatGPT d’OpenAI ou Bard de Google afin de maitriser le socle technique et intervenir sur toutes les étapes de conception et d’entraînement.

Il s’agit aussi de proposer une alternative aux modèles « Transformers » utilisé dans la plupart des applications de computer vision ou de génération texte. Enfin, un effort sera porté sur l’explicabilité des modèles pour éviter l’effet « boîte noire ».

Moshi de ce point de vue n’est donc qu’une démonstration d’ambitions plus larges. Le propos ici n’est donc pas de railler cette initiative, qui a toutes les apparences d’un PoC aux ambitions plus larges.

300 millions d’euros d’investissement

Surtout que Xavier Niel entend aussi avec ces initiatives françaises en matière d’IA faire retraverser l’Atlantique aux génies français expatriés dans la Silicon Valley.

Doté de près de 300 millions d’euros Kyutai a également les moyens de ses ambitions. Ses trois cofondateurs, le groupe iliad (Free), le groupe CMA CGM et Schmidt Futures, l’entreprise philanthropique d’Eric Schmidt, ancien PDG de Google, ont chacun mis au pot.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.