Mark Zuckerberg, propriétaire de Meta Platforms, a annoncé vendredi un nouveau modèle d’IA appelé Movie Gen. Ce modèle peut générer des vidéos HD (résolution 1080p) à partir d’un prompt textuel.
L’entreprise affirme que ces vidéos sont en moyenne plus « réalistes » que les vidéos générées par des technologies concurrentes, comme Sora d’OpenAI.
Le modèle peut également générer du son synchronisé, mais surtout rééditer la vidéo automatiquement à partir d’un prompt. Par exemple « habiller les pingouins avec des tenues victoriennes » comme ci-dessus.
Comment évaluer le « réalisme » d’une vidéo générée par IA ?
Dans le document d’accompagnement, « Movie Gen : A Cast of Media Foundation Models », les chercheurs de Meta AI décrivent comment ils ont demandé à des humains d’évaluer le réalisme des vidéos générées par l’IA :
Mesure de la réalité : Cette mesure permet de déterminer laquelle des vidéos comparées ressemble le plus à une vraie vidéo. Pour les prompts fantastiques (par exemple, celles qui représentent des créatures fantastiques ou des scènes surréalistes), nous définissons le réalisme comme l’imitation d’un extrait de film dans un style artistique réaliste. Nous demandons également aux évaluateurs d’indiquer la raison de leur choix, par exemple « l’apparence du sujet est plus réaliste » ou « le mouvement est plus réaliste « . Il existe également un article de blog sur le sujet.
Les tests humains permettent d’identifier un score gagnant/perdant pour Movie Gen par rapport à Sora et à trois autres modèles d’IA de conversion de texte en vidéo, Runway Gen3, Lumalabs et Kling1.5. Surtout, les auteurs notent qu’il n’est pas encore possible d’obtenir de bonnes comparaisons de manière automatisée. En outre, « l’évaluation de la réalité et de l’esthétique dépend fortement de la perception et des préférences humaines », écrivent-ils.
Meta Platforms
Lutter contre amplitude et distorsion
Le réalisme, mais aussi la qualité du mouvement d’une vidéo, le fait qu’elle ne saute pas ou qu’elle ne se trompe pas sur certaines parties d’une action, et la fidélité de la vidéo par rapport à l’invite textuelle saisie, sont des choses que l’on ne peut tout simplement pas automatiser, affirment les auteurs.
« Nous constatons que les mesures automatisées existantes peinent à fournir des résultats fiables, ce qui renforce la nécessité d’une évaluation humaine ».
Le benchmark mesure la manière dont « les humains préfèrent les résultats de notre modèle à ceux des modèles concurrents de l’industrie », indique le document, ce qui se traduit par un « taux de gain net » en pourcentage. Le taux de victoire moyen contre Sora est de 11,62 %. Le taux de victoire contre les autres est nettement plus élevé.
« Ces gains nets significatifs démontrent la capacité de Movie Gen Video à simuler le monde réel avec des vidéos générées qui respectent la physique, avec des mouvements qui sont à la fois raisonnables en termes d’amplitude, mais aussi cohérents et sans distorsion ».
Comment entraîner un modèle à générer de la vidéo avec de l’IA ?
Ils proposent quelques exemples de captures d’écran de vidéos directement opposées à Sora. Selon les auteurs, « OpenAI Sora peut avoir tendance à générer des vidéos moins réalistes (par exemple, le kangourou caricatural de la deuxième rangée). Et qui peuvent ne pas contenir les détails du mouvement décrits dans le prompt textuel (par exemple, le robot qui ne marche pas dans la rangée du bas) ».
Meta Platforms
Et les auteurs ont construit le modèle d’IA pour Movie Gen à partir de ce qu’ils appellent un « ensemble de modèles de base ».
Lors de la phase d’entraînement, les images et les vidéos provenant d’un mélange de données publiques et sous licence sont compressées jusqu’à ce que le modèle apprenne à reproduire efficacement les pixels, expliquent les auteurs. « Nous codons les vidéos et les images dans un espace compressé spatiotemporel à l’aide d’un autoencodeur temporel (TAE – Temporal Autoencoder). Et nous apprenons à générer des vidéos dans cet espace latent ».
Meta a utilisé plusieurs étapes pour non seulement générer des vidéos, mais aussi synchroniser l’audio, la personnalisation et la capacité d’édition vidéo. Meta Platforms
Un modèle de 30 milliards de paramètres
Cette génération de vidéo est ensuite « conditionnée » par des prompts textuels afin que le modèle soit capable de produire une vidéo conforme à des prompts textuels.
L’ensemble constitue un modèle de 30 milliards de paramètres. Ce qui n’est pas énorme au regard des normes de formation actuelles.
Un deuxième réseau neuronal, appelé « Movie Gen Audio », produit un son de haute fidélité. Mais uniquement pour les effets sonores et la musique, pas pour la parole. Il s’appuie sur une approche appelée « transformateur de diffusion », qui compte 13 milliards de paramètres.
« 6 144 GPU H100, 80 Go de HBM3 »
Tout cela nécessite beaucoup de puissance de calcul. Soit « 6 144 GPU H100, chacun fonctionnant à un TDP de 700 W et avec 80 Go de HBM3, en utilisant la plateforme de serveur Grand Teton AI de Meta ».
Et Movie Gen ne se contente pas de générer des vidéos. L’idée est ensuite de créer des vidéos « personnalisées », où le visage d’une personne peut être forcé à apparaître dans le film.
Viendra ensuite la possibilité d’éditer les vidéos à l’aide d’un prompt textuel.
Comment former un modèle pour éditer des vidéos ?
Le problème auquel les auteurs ont été confrontés est que « les modèles de montage vidéo sont entravés par la rareté des données de montage vidéo supervisé ». Concrètement, il n’y a pas assez d’exemples à donner au modèle d’IA pour l’entraîner.
Pour contourner ce problème, l’équipe a repris le modèle d’IA Movie Gen et l’a modifié en plusieurs étapes.
- Tout d’abord, elle a utilisé des données provenant de l’édition d’images pour simuler ce qu’implique l’édition d’images vidéo. Ces données ont été intégrées dans la formation du modèle en même temps que la formation initiale à la conversion du texte en vidéo. L’idée est que le modèle d’IA développe une capacité à coordonner le montage d’images individuelles avec de multiples images vidéo.
- Dans la partie suivante, les auteurs introduisent dans le modèle une vidéo, une légende textuelle, telle que « une personne marchant dans la rue », et une vidéo éditée. Ils entraînent le modèle à produire l’instruction qui conduirait au passage de la vidéo originale à la vidéo éditée. En d’autres termes, ils forcent le modèle d’IA à associer des instructions à des vidéos modifiées.
Pour tester la capacité d’édition vidéo, les auteurs compilent un nouveau test basé sur 51 000 vidéos collectées par les chercheurs de Meta.
Ils ont également fait appel au crowd working pour trouver des instructions d’édition.