OpenAI a mis la barre plus haut dans le domaine de l’IA génératrice de vidéos en mettant son modèle Sora Turbo à la disposition des utilisateurs de ChatGPT Plus. Google vient de riposter avec le lancement de son générateur vidéo le plus avancé.
Veo 2 est un générateur de texte en vidéo qui bénéficie d’améliorations par rapport au modèle précédent, notamment une meilleure compréhension de la physique du monde réel, ce qui aide l’IA à produire de meilleures générations avec plus de détails et de réalisme, selon Google.
Veo 2 comprend le vocabulaire cinématographique
Les vidéos générées peuvent atteindre une résolution de 4K et surmonter les écueils courants des générateurs de vidéos, notamment les hallucinations telles que les doigts supplémentaires. Lorsqu’il a été comparé par des humains à d’autres modèles vidéo de premier plan, notamment Sora Turbo, Kiling v1.5 et Meta Movie Gen, Veo 2 a été élu meilleur en termes de performances globales et d’adhésion rapide.
Veo 2 comprend également le langage cinématographique, comme un genre, un objectif ou un angle spécifique. Par exemple, si un utilisateur dit « faible profondeur de champ », Veo 2 sait flouter l’arrière-plan du sujet pour produire l’effet voulu. La vidéo ci-dessous a été créée avec une prise de vue qui indiquait spécifiquement « Prise de vue avec un objectif 35 mm sur film Kodak Portra 400 ».
Le modèle est disponible pour le grand public et disponible dans VideoFX dans Google Labs. Malheureusement, il n’est pour le moment pas accessible depuis la France.
Imagen 3 est encore plus puissant
Google a également annoncé avoir amélioré son IA génératrice d’images qui peut générer des styles plus diversifiés et des images avec des détails et des textures plus riches, selon Google.
Cette version d’Imagen 3 est déployée via ImageFX dans Google. La version précédente d’Imagen 3 était déjà très performante, se classant comme le meilleur générateur d’images IA dans notre panorama 2024.
Enfin, Google a dévoilé Whisk, une nouvelle expérience également disponible dans Labs. Cet outil permet aux utilisateurs de créer une image (ou d’en saisir une propre) et de la transformer en une nouvelle image sous forme de peluche, d’épingle ou d’autocollant. Il exploite Imagen 3 et Gemini, créant des légendes détaillées pour l’image qui sont ensuite intégrées dans Imagen 3 pour créer les produits finaux.