Comment Meta promet de révolutionner l’audio en ligne grâce à une IA et son nouveau codec

Comment Meta promet de révolutionner l'audio en ligne grâce à une IA et son nouveau codec


Grâce à moteur neuronal de compression audio, le codec de meta « EnCodec » promet une compression dix fois meilleure que le MP3 à qualité égale. De quoi faire baisser la bande passante de manière importante, autant sur les appels audio que sur la musique.

Alors que les volumes de données audio qui transitent sur les réseaux explosent, Meta sort de son chapeau un projet de recherche qui pourrait permettre de sérieusement réduire les débits nécessaires et la bande passante consommée. De son petit nom « EnCodec », le code audio de Meta a une originalité : l’IA y a une place prépondérante. Et pour cause, EnCodec est un projet de ses laboratoires FAIR, les Facebook AI Research. Et bonne nouvelle pour les chauvins, trois des quatre chercheurs (Alexandre Défossez, Jade Copet, Gabriel Synnaeve et Yossi Adi) qui publient l’article scientifique font partie du FAIR Paris !

Dans les pas du codec SoundStream, de Google, EnCodec utilise des réseaux neuronaux convolutifs pour compresser/décompresser les fichiers sonores. La technique est complexe, puisque la moulinette de compression travaille en trois temps : première compression pour obtenir un premier jet à bas framerate qui donne la forme de longueur d’onde et la taille cible. Puis une quantification vectorielle du signal qui va savoir quelles sont les informations à conserver. En bout de chaîne, la décompression du signal se fait là encore par le biais d’un réseau neuronal « accordé » sur celui de la compression, afin de restituer un signal de grande qualité. Nous vous encourageons à aller écouter la comparaison audio entre différents codecs et EnCodec sur le blog de Meta.

Dix fois mieux que le MP3

EnCodec fait dix fois mieux que le MP3 dans les bas bitrate.

Si le papier scientifique est hors de portée du commun des mortels, la promesse finale est facile à comprendre : un fichier EnCodec compressé à 6 kbit/s promet la même qualité audio qu’un fichier MP3 compressé en 64 kbit/s. Un facteur x10 qui est certes idéal et un peu déformé – cela fait un moment que le MP3 n’est plus le codec audio de référence, mais qui a comme vertu de donner un bel ordre d’idée sur les gains apportés par cette nouvelle technologie.

L’arrivée de cette technologie s’accompagne évidemment de questions : si les chercheurs de Meta affirment qu’il « suffit » d’un cœur CPU pour effectuer la décompression en temps réel, tous les cœurs ne se valent pas. Et les chercheurs ont testé leur codec sur « un MacBook Pro de 2019 », sans donner plus de précisions sur ce qu’il serait possible de faire sur un cœur ARM de smartphone. Il aurait aussi été appréciable de parler de l’utilisation des NPU, les processeurs neuronaux, pour la compression/décompression – les CPU sont généralement moins efficaces dans les tâches « IA » que les NPU. Côté latence – un élément important pour les applications en temps réel – la compression/décompression 48 kHz n’est pour l’heure pas assez performante pour un tel usage. Mais outre le fait que cette compression est déjà parfaitement adaptée pour les fichiers musicaux, les chercheurs n’excluent pas de pouvoir d’améliorer les performances temps réel dans un futur proche.

D’abord la voix et l’audio, la vidéo viendra ensuite

Les exemples de débits (bitrate) communiqués par Facebook sont ceux les plus adaptés à la voix et à la musique. Ce sont en effet ces deux premiers usages pour lesquels EnCodec a tout d’abord été optimisé. Ce qui a du sens quand on regarde le business actuel de Meta. Avec Facebook Messenger et WhatsApp, Meta gère un énorme volume audio via les appels et autres messages. La moindre amélioration – et ici, elle semble être de taille – promet d’importantes économies de bande passante et de stockage. Et donc de coûts. Autre bénéfice, notamment pour les pays dont les infrastructures télécoms sont médiocres : une amélioration significative de la qualité audio sans surcharger les réseaux. Même les plus vieux : alors que la VoLTE consomme 23,85 kbit/s, la grande qualité d’EnCodec à 6 kbit/s est du pain béni pour les vieux réseaux 3G limités à 12,2 kbit/s.

La vidéo est bien évidemment dans le collimateur de Meta. Le géant américain explique dans son blog que « bien que nos techniques ne prennent pas encore en charge la vidéo, c’est le début d’une initiative […] qui pourra améliorer les expériences telles que la vidéo conférence, la diffusion en ligne de films, et jouer à des jeux avec des amis en VR ». Ajoutant même plus loin que « ces connaissances seront utiles pour de futures expériences liées au Metaverse ». Meta reste Meta !

Meta détesté dans le monde… mais pas dans celui de la recherche

Entre l’effondrement de son cours en bourse, les railleries de son « Metavers » ou encore les incriminations (souvent justifiées) de ses services Facebook ou Instagram, Meta n’est pas en odeur de sainteté auprès du public. Mais il en va autrement dans le domaine de la recherche, un plan dans lequel l’entreprise reste très respectée.

C’est ainsi que le framework le plus célèbre en matière d’IA PyTorch a été développé par Meta, puis donné à la fondation Linux. Même son de cloche dans le monde de Javascript, qui doit beaucoup à Meta pour avoir développé puis placé sous licence MIT React, l’un des plus importants outils de conceptions d’interface. Ces deux exemples et les dizaines d’outils rendus ouverts et gratuits (Fresco, Docusaurus ou Zstandard) nous laissent espérer le même genre de traitement pour EnCodec.

Si les promesses sont tenues et le standard ouvert, l’impact du codec de Meta pourrait être énorme.

Source :

ArsTechnica



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.