On a testé… la musique générée par IA

On a testé… la musique générée par IA


Comme un léger parfum de révolution : l’année 2022 a vu émerger des outils fondés sur de l’intelligence artificielle (IA), comme le robot conversationnel ChatGPT, apte à rédiger un e-mail sur la base d’une courte consigne (le « prompt »), ou Midjourney, capable de générer des images quasiment photoréalistes lorsqu’on les lui décrit en quelques mots. Mais peut-on aussi créer de la musique mêlant des instruments, des percussions et éventuellement des voix, uniquement à parti de consignes textuelles ?

Nous avons dénombré une douzaine d’intelligences artificielles dont c’est actuellement l’ambition. Parmi elles, nous en avons essayé quatre librement accessibles en ligne, faciles à utiliser, et qui permettent de générer entièrement différents styles de musiques : MusicGen, AudioGen, Riffusion et Mubert. Puis deux IA plus spécialisées, davantage centrées sur les voix, notamment celles de rappeurs. Nous n’avons malheureusement pas encore pu tester l’IA de Google, MusicLM, pas encore disponible en France, mais dont la page de démonstration semble prometteuse.

De bonnes surprises

Aux quatre premières IA sélectionnées, nous avons soumis une trentaine de consignes comme « musique réconfortante après une rupture » ou « death metal avec un chanteur à la voix aiguë ». Les résultats sont hélas – ou heureusement pour les musiciens – décevants. Les sonorités manquent cruellement de définition, l’harmonie d’ensemble est souvent rompue par des accords étranges ou des sons perturbants. Voici par exemple ce que l’on obtient avec Mubert en demandant un morceau de « piano romantique du XIXe siècle » :

Mais, de temps à autre, un essai musical relativement réussi laisse imaginer que peut-être, un jour plus ou moins lointain, une IA musicale sera capable de répondre fidèlement aux consignes qu’on lui donne. Chacune des IA testées nous a ainsi procuré une ou deux bonnes surprises.

C’est le cas d’AudioGen, un outil expérimental développé par Meta pour générer des ambiances sonores. Lorsqu’on lui demande un titre de « rock des années 1990 avec un chanteur d’opéra », cette IA produit un court extrait évoquant vaguement la musique de Queen – pas si éloignée de la cible désignée. Lorsqu’on lui demande une « musique relaxante pour s’endormir » (en anglais, car ces IA ne comprennent pas le français), le résultat semble indubitablement soporifique, et point trop désagréable.

Meta a aussi développé une IA plus spécifiquement destinée à créer de la musique, MusicGen. Elle interprète la consigne courte « clavecin » de façon étonnamment convaincante, plongeant l’auditeur dans un paysage baroque aux contours cependant un peu flous. Et lorsqu’on lui demande un titre de « jazz des années 1960 », elle pose une ambiance musicale évoquant celle d’un club d’époque. Mieux vaut toutefois écouter cet extrait avec une oreille bienveillante, car des maladresses mélodiques et autres bizarreries rythmiques y affleurent.

Riffusion, créé par deux geeks à leurs heures perdues, réussit plutôt bien à reconstituer un « rap des années 1980 », associant un beat un peu simple à une voix un peu naïve. Et lorsqu’on demande à Riffusion de créer un « tube de Shakira pour la Coupe du monde », il génère un début de titre plutôt agréable, dont la voix ressemble étonnamment à celle de la star colombienne.

Mubert, un outil commercial conçu par une équipe établie dans l’Etat du Delaware (Etats-Unis), donne quant à lui des résultats assez convaincants tant qu’on reste dans le domaine de la musique électronique, mais il se perd complètement lorsqu’on sort de ce domaine musical. Cette IA génère ainsi un morceau particulièrement vivifiant lorsqu’on lui demande « une musique énergisante pour rester éveillé », étonnamment propre et exploitable comparé à ceux des autres IA testées.

A noter toutefois que le moteur de Mubert fonctionne très différemment de celui des IA génératives classiques. Alors que ces dernières reconstituent totalement les ondes sonores, Mubert, lui, se contente de puiser dans une collection d’éléments déjà créés par des musiciens humains, qu’il assemble et recombine automatiquement. L’entreprise ne précise pas si son IA est capable d’enrichir ces titres avec des éléments créés sans aucune contribution humaine, interprétés par des instruments virtuels ou des boîtes à rythme, par exemple.

Coups de génie inversés

Cette série d’essais relativement réussis ne doit cependant pas tromper : ils restent l’exception. Trois fois sur quatre, les IA testées produisent des extraits sonores complètement ratés. Aucune ne surnage ni ne semble utilisable au quotidien pour combler les désirs ou les fantasmes musicaux du grand public. D’autant moins que ces IA élaborent des titres courts, limités à une dizaine de secondes en moyenne. Une restriction due parfois à la volonté de générer des abonnements, mais aussi aux ressources informatiques considérables que mobilise chaque seconde de création musicale par IA.

En outre, même quand les extraits sonores générés ne sont pas complètement ratés, ils sont fréquemment décevants : ces IA vont rarement jusqu’au bout du travail. Trop souvent, elles ne respectent les consignes qu’à moitié. Lorsqu’on demande par exemple à Mubert un « rappeur sur de la musique classique », l’IA « oublie » la seconde partie de notre requête :

Plus décourageant encore, toutes les IA ont occasionnellement des coups de génie inversés, produisant par exemple l’extrême opposé de la consigne donnée. Dans leur production globale, ces contre-exemples sont aussi fréquents que les morceaux vraiment réussis.

Toutefois, il est un genre dans lequel les IA musicales génératives s’en sortent mieux : le rap. Nous avons testé deux outils complémentaires aux IA étrennées plus haut. Deux outils qui ne savent pas générer de musique instrumentale, mais qui peuvent transformer un texte écrit par un humain en une voix slammée.

Le Monde

Offre spéciale étudiants et enseignants

Accédez à tous nos contenus en illimité à partir de 8,99 euros par mois au lieu de 10,99 euros

S’abonner

Avec le service en ligne Uberduck, capable de poser cette voix sur une musique préenregistrée, on parvient du premier coup à un résultat relativement crédible :

Un autre service en ligne, FakeYou, permet aussi de générer un slam sur la base de quelques vers écrits, tout en optant pour la voix d’un rappeur célèbre :

C’est probablement ce type d’outils qui a servi à la fabrication de faux titres de Jay-Z ou de Drake ces derniers mois, ainsi qu’à la création d’un faux couplet d’Eminem par le DJ David Guetta.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.