Après les succès dans les domaines de l’image (Dall-E, Stable Diffusion) ou du texte (Chat GPT), l’IA fait la démonstration de sa puissance créative dans le domaine de la musique par le biais de MusicLM de Google. Mais Google reste prudent et ne donne aucun accès à son outil au grand public. Par peur d’ouvrir la boîte de Pandore ?
Les images, puis le texte et la conversation et aujourd’hui la musique ! Les démonstrations de modèles d’IA se suivent et se complexifient et aujourd’hui c’est le modèle MusicLM de Google qui est à l’honneur. Une IA qui, comme ses sœurs Dall-E et Stable Diffusion pour l’image, se base sur une requête sous forme de texte pour vous composer des morceaux de musique. Si de tels modèles ont déjà été conçus par le passé, ici la qualité « haute-fidélité » fait un bond en avant en termes de rendu. Et en termes de crédibilité et de diversité. Sur cette page dédiée à MusicLM, les chercheurs de Google partagent de nombreux extraits musicaux avec les requêtes associées. Outre la variété des styles, il faut souligner celle de la nature requêtes : morceaux courts, longs, segmentés en genres (Story Mode) ou encore des variations sur des airs connus ou des compositions inspirées de descriptions de tableaux célèbres.
En prenant un peu de temps d’écouter plusieurs de ces « créations », quelques constats semblent évidents. D’une part, certains morceaux, notamment électroniques, sont clairement au niveau de productions humaines. Ensuite, si l’IA est toujours capable de réaliser des « pains » au piano (voir « Text and Melody Conditioning », colonne « bella ciao – humming », ligne « piano solo »), de gros progrès ont été réalisés dans la construction et dans la génération de la voix (timbre de voix notamment). Si le modèle fait grand cas de ne pas coller à une langue, l’exemple « Slow tempo, bass-and-drums-led reggae song. Sustained electric guitar. High-pitched bongos with ringing tones. Vocals are relaxed with a laid-back feel, very expressive. » dans la section« Audio Generation From Rich Captions » est assez impressionnant. À partir d’une longue description bien précise, l’IA est à même de faire un vrai morceau crédible avec du chant humain dedans. Un exemple qui illustre selon nous l’une des raisons pour laquelle, contrairement aux IA que nous avons déjà mentionnées, il n’y a aucune possibilité pour l’heure de « jouer » avec cette IA.
Un séisme potentiel pour le marché de la musique ?
Un front d’artistes est en train de se lever dans le domaine du dessin, les concepteurs des IA telles que Dall-E et Stable Diffusion ayant entraîné leurs précieux algorithmes sur des corpus entiers d’artistes encore vivants. Permettant à un quidam – comme vous et moi – de reproduire en deux phrases le style d’un artiste qui a parfois passé sa vie à parfaire non seulement son art, mais aussi son identité visuelle. Entre ce mouvement qui pourrait donner lieur à une correction juridique sévère, et l’exemple de Chat-GPT où les exemples de plagiat, triche et autres « bricolages » scolaire explosent, l’arrivée d’un puissant outil audio a de quoi forcer Google à garder la tête (bien) froide.
Lire aussi : Cette IA gratuite n’a qu’un seul but : pirater les images copyrightées (janvier 2023)
Car le champ des possibles et donc les abus potentiels sont potentiellement aussi énormes dans le domaine musical que dans celui de l’image. Outre la fragilisation (voire la destruction) de marchés de création d’identités sonores, fonds musicaux, musiques d’ambiance, etc. Le risque de plagiat ou « forte inspiration » qui déclencherait l’ire d’un ou plusieurs artistes connus est potentiellement fort. Et si OpenAI était prête à « disrupter le marché » avec Dall-E et Chat-GPT afin d’attirer les investisseurs (comme Microsoft), un mastodonte comme Google a bien plus de responsabilités et de pressions sur ses épaules. Une responsabilité clairement comprise et explicitée dans le papier de recherche “Music LM : générer de la musique à partir de texte” (article en anglais) : « Nous insistons fortement sur la nécessité de travaux futurs supplémentaires pour lutter contre (les) risques associés à la génération de musique – nous n’avons pas l’intention de publier de modèles à ce stade ». En clair : Google ne veut pas ouvrir la boîte de Pandore. Seul un acteur plus petit et avec moins de risques « corporate » pourrait se le permettre…
Lire aussi : « Il n’a rien de révolutionnaire » : Yann LeCun, pionnier français de l’IA, n’est pas impressionné par ChatGPT (janvier 2023)
Et quelqu’un va logiquement le faire ! Avec la masse de publications d’entreprise comme Google, de nombreux modèles musicaux font désormais l’objet de recherche intense. Si les menaces sont importantes pour l’écosystème musical, les promesses le sont tout autant pour le reste du monde. Qu’il s’agisse de la possibilité pour une entreprise de créer une musique d’attente téléphonique unique et sans redevance, la génération rapide et facile de sons et musiques pour un jeu vidéo indépendant, etc. L’IA va évidemment finir par bousculer le marché de la création musicale. La question étant de savoir si un cadre légal pourra encadrer son arrivée ou si elle agira comme un nouveau raz de marée. Sur un segment qui en a déjà connu beaucoup.
Source :
The Verge