NVIDIA se jette dans la bataille des IA génératives avec un nouveau modèle baptisé Fugatto (Foundational Generative Audio Transformer Opus 1). A partir d’une description textuelle, il peut créer des contenus audio ou modifier des fichiers musicaux, vocaux et sonores existants.
« Par exemple, il peut créer un extrait musical à partir d’un texte, supprimer ou ajouter des instruments à une chanson existante, modifier l’accent ou l’émotion d’une voix – et même permettre à des personnes de produire des sons jamais entendus auparavant », explique NVIDIA.
Un outil pour les producteurs de musique, les développeurs de jeux vidéo, les publicitaires…
Selon l’entreprise, les producteurs de musique pourraient utiliser Fugatto pour générer rapidement une idée de chanson, qu’ils pourraient ensuite facilement éditer pour essayer différents styles, voix et instruments. Les développeurs de jeux vidéo pourraient s’en servir pour générer facilement des effets sonores qui s’adaptent en fonction des choix et des actions des joueurs.
Autre exemple développé par NVIDIA, une agence de publicité pourrait utiliser Fugatto pour adapter une campagne à des régions ou situations, en appliquant différents accents et émotions aux voix off. Fugatto pourrait également être utile pour la création d’outils d’apprentissage des langues.
Fugatto utilise 2,5 milliards de paramètres
La version complète du modèle utilise 2,5 milliards de paramètres et a été formée sur une banque de systèmes NVIDIA DGX intégrant 32 GPU NVIDIA H100 Tensor Core. « Nous voulions créer un modèle qui comprenne et génère des sons comme le font les humains », a déclaré Rafael Valle, responsable de la recherche audio appliquée chez NVIDIA.
Pour l’heure, NVIDIA n’a pas indiqué s’il comptait mettre Fugatto en accès grand public.