Genie est présenté par Google DeepMind comme » le premier environnement interactif génératif qui a été entraîné de manière non supervisée avec des vidéos Internet sans étiquetage. » Un jeu de données de plus de 200 heures de vidéos publiques de jeux de plateforme 2D a été utilisé pour un modèle final d’IA de 11 milliards de paramètres.
Même si ce ne sont à l’origine que des données vidéo, le modèle d’IA est capable de convertir n’importe quelle image en un monde 2D jouable. Chercheur et responsable de l’équipe Open-Endedness chez Google DeepMind, Tim Rocktäschel parle de générer une variété infinie de mondes 2D contrôlables par l’action à partir de prompts d’images.
Une prouesse mise en avant est la capacité de Genie à apprendre différentes actions latentes qui contrôlent des personnages, sans aucune supervision et de manière cohérente. Et si Genie se concentre sur la génération de jeux 2D, c’est un modèle qui se veut bien plus large. De quoi laisser entrevoir un pas supplémentaire vers une intelligence artificielle générale.
Pas visuellement abouti comme Sora, mais…
Le résultat est bien moins clinquant que le modèle Sora d’OpenAI qui a fait sensation pour générer des vidéos extrêmement réalistes à partir d’instructions textuelles. Avec Sora, il était déjà question de l’IA générale à l’horizon. Pourtant, Tim Rocktäschel insiste sur un point.
» Certes, Sora d’OpenAI est vraiment impressionnant et visuellement magnifique, mais un modèle du monde a besoin d’actions. » Tim Rocktäschel souligne notamment des critiques en ce sens du chercheur en intelligence artificielle Yann Le Cun (Meta), le pionnier des réseaux de neurones artificiels.
Un site sur Genie a été mis en ligne par l’équipe chez Google DeepMind. Il présente par exemple la génération d’actions depuis des images créées par le modèle Imagen2, de simples croquis ou des photos.