La vidéo générée par l’IA progresse rapidement. Nous assistons aujourd’hui à la montée en puissance d’outils capables de générer des vidéos d’un photoréalisme saisissant à partir d’un simple prompt. Toutefois, la plupart des vidéos générées par l’IA présentent une lacune flagrante : elles sont silencieuses.
Ce n’est plus le cas. Lors de sa conférence annuelle I/O, la semaine dernière, Google a annoncé la sortie de Veo 3, la dernière itération de son modèle d’IA génératrice de vidéos, qui est également capable de générer du son synchronisé.
Imaginez que vous demandiez au système de générer une vidéo à l’intérieur d’un wagon de métro très fréquenté, par exemple. Veo 3 peut produire la vidéo, accompagnée d’un bruit de fond généré par l’IA pour ajouter à l’impression de réalisme. Selon Google, il est même possible de lui demander de générer des voix humaines.
Le modèle serait également spécialisé dans la simulation de la physique du monde réel et de la synchronisation labiale. Ce qui en fait un outil potentiellement précieux pour les cinéastes. Il est disponible pour les abonnés de Gemini Ultra aux États-Unis. Il est également accessible via Flow, le nouvel outil de réalisation de films alimenté par l’IA de Google, qui a également été dévoilé aujourd’hui lors de la conférence I/O.
Un défi technique majeur
Veo 3 est l’un des premiers modèles d’un grand développeur technologique capable de synchroniser la vidéo et l’audio générés par l’IA. Movie Gen de Meta, sorti en octobre, en est un autre. D’autres outils, comme le Gen-3 Alpha de Runway, sont dotés de fonctions qui permettent d’intégrer le son généré par l’IA à la vidéo dans un processus de post-production. Mais la génération simultanée des deux nécessite le calcul et les ressources d’un acteur majeur tel que Google.
La création de modèles d’IA capables de générer des séquences vidéo et audio synchronisées constitue un défi technique épineux. La vidéo et l’audio générés par l’IA sont des défis techniques distincts, et leur fusion introduit une toute nouvelle dimension de complexité.
- D’une part, la vidéo est une série d’images fixes, alors que l’audio est une onde continue. Pour les synchroniser, il faut donc des modèles capables de fonctionner selon ces deux modalités, en tenant compte des échelles de temps très différentes dans lesquelles elles s’inscrivent.
- Un modèle d’IA fusionnant la vidéo et le son doit également être capable de prendre en compte de manière dynamique des variables telles que le matériau, la distance et la vitesse. Le son d’une voiture roulant à 160 km/h est très différent de celui d’une voiture roulant à 10 km/h. Et le son d’un cheval marchant sur des pavés est différent de celui d’un cheval marchant sur de l’herbe.