Après le texte (ChatGPT) et les images (Dall-E), OpenAI s’attaque à la vidéo ! L’entreprise a dévoilé Sora, un nouveau modèle IA pour créer des vidéos réalistes à partir d’une simple requête texte. Les premiers résultats sont troublants de réalisme.
OpenAI ne veut pas s’arrêter aux images ou au texte. Avec Sora, le créateur de ChatGPT se lance à l’assaut de la vidéo. Ce modèle d’intelligence artificielle « texte vers vidéo » peut générer des clips d’une minute tout en maintenant la qualité visuelle tout du long.
Une qualité photoréaliste pour des vidéos d’une minute
Il existe déjà des modèles IA pour les vidéos, comme Runway chez Google par exemple, mais les clips produits ne dépassent pas quelques secondes. Sora va donc plus loin et surtout, surprend par la qualité photoréaliste des images générées. Sam Altman, le patron d’OpenAI, a partagé plusieurs de ces créations à partir de requêtes d’internautes, et le site web de la société en propose plusieurs qui sont tout aussi étonnantes.
https://t.co/rPqToLo6J3 pic.twitter.com/nPPH2bP6IZ
— Sam Altman (@sama) February 15, 2024
here is a better one: https://t.co/WJQCMEH9QG pic.twitter.com/oymtmHVmZN
— Sam Altman (@sama) February 15, 2024
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
Sora est capable de générer des séquences complexes avec plusieurs personnages, des mouvements de caméra spécifiques et des détails sur le sujet et son environnement. « Le modèle comprend non seulement ce que l’utilisateur a demandé dans sa requête, mais comment les choses doivent exister dans l’univers physique », détaille l’entreprise.
Pour le moment, Sora est un projet de recherche qu’OpenAI a mis entre les mains d’une poignée d’heureux élus : artistes, créateurs de contenu triés sur le volet et chercheurs en sécurité. La création des vidéos demande plusieurs heures de calcul, mais pas plusieurs jours.
Par ailleurs, Sora a des faiblesses dans la simulation précise de la physique d’une séquence complexe, ainsi que dans des instances de cause à effet. La société donne l’exemple d’un biscuit croqué par une personne, sans que la morsure n’apparaisse dans le biscuit. Sora peut également inverser la droite et la gauche.
Et pour les cinéastes qui craignent de perdre leur gagne-pain, qu’ils se rassurent : il ne sera pas possible de créer un film cohérent en collant 90 minutes de clips générés par Sora ! Les vidéos du le modèle de langage sont à chaque fois un peu différentes pour une même requête, ce qui empêche la continuité entre les clips.
En revanche, Sora semble taillé pour les créateurs de contenus sur les réseaux sociaux qui veulent partager des contenus brefs, ou pour les annonceurs ayant besoin d’une publicité animée. Reste néanmoins à régler quelques questions de la plus haute importance concernant la sécurité et la provenance des données.
Sora rejettera les requêtes qui enfreignent ses conditions d’utilisation : contenu violent et à caractère sexuel, haine, ressemblance avec des célébrités, ou encore la copie d’œuvres protégées par le droit d’auteur. Un système de détection est mis en place pour déterminer si une vidéo a été générée avec le modèle. Enfin, Sora a été entraîné sur des données pour lesquelles OpenAI a obtenu une licence, ainsi que sur les contenus du domaine public. Cela n’empêchera sans doute pas les plaintes de s’accumuler !
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.