Comment une intelligence artificielle a appris à jouer à Minecraft grâce à 70 000 heures de vidéos YouTube

Comment une intelligence artificielle a appris à jouer à Minecraft grâce à 70 000 heures de vidéos YouTube


Une intelligence artificielle pourra-t-elle, un jour, jouer aussi bien – voire mieux – qu’un humain à Minecraft ? Et surtout pourra-t-elle bientôt apprendre beaucoup plus vite grâce à de simples vidéos publiées sur le Web ? Voilà en tout cas l’objectif d’OpenAI, qui vient de présenter le résultat de premières recherches prometteuses.

Maîtriser Minecraft est un immense défi pour une intelligence artificielle. Car le titre de Mojang est un jeu bien plus complexe à assimiler pour un ordinateur que les échecs ou le go (jeux où l’IA nous atomise désormais). C’est un jeu très ouvert, aux règles souples, et c’est d’ailleurs ce qui fait son charme !  Il offre une liberté quasi-totale au joueur, qui peut explorer, crafter, creuser, bâtir à l’envi… Bref, enchaîner des actions extrêmement variées et complexes, qu’il est difficile à faire apprendre à de malheureux programmes informatiques.

C’est pourtant ce qu’a réalisé une équipe de chercheurs d’OpenAI. Ils ont entraîné un modèle à partir de zéro… qui parvient à jouer « correctement » à Minecraft.  Mieux, leur modèle joue strictement comme un humain, c’est-à-dire en utilisant l’interface et les commandes traditionnelles du jeu : des frappes au clavier et des mouvements de souris.

Entendons-nous : lâchée dans Minecraft, l’intelligence artificielle d’OpenAI est incapable de fabriquer de toutes pièces une maison de rêve et encore moins de reproduire King’s Landing. Elle se contente de tâches beaucoup plus modestes, mais ses performances sont loin d’être ridicules. Elle parvient ainsi à construire un abri sommaire, à fabriquer des outils, et à explorer un village pour y ouvrir des coffres… Elle est même parvenue, à quelques reprises, à créer une pioche en diamant, ce qui est, d’après OpenAI, une première mondiale. C’est en effet un outil loin d’être facile à obtenir, qui nécessite de nombreuses étapes complexes d’exploration, de fabrication et de combinaison d’objets.

Une IA qui joue à Minecraft, ça donne ça

Une IA biberonnée à YouTube

Comment les chercheurs d’OpenAI sont-ils parvenus à un tel résultat ? La réponse tient presque en un mot : YouTube. Ils ont profité de l’incroyable richesse et diversité des vidéos traitant de Minecraft sur Internet pour « gaver » leur modèle, qui s’est ensuite inspiré de ce qu’il a vu pour apprendre à jouer.

Bon, ce n’est tout à fait aussi simple que ça, bien entendu. Loin de là. Leur technique, qu’ils ont baptisée VPT (pour Video PreTraining) a d’abord consisté à collecter 70 000 heures (!) de vidéos du jeu, plus spécifiquement destinées aux débutants : tutoriels, guides, etc. Ce qui n’est déjà pas simple : les chercheurs ont pour cela dû avoir recours à de « petites mains » recrutées sur Amazon Mechanical Turk. Elles ont vérifié, grâce à une capture d’écran de chaque vidéo, si les contenus sélectionnés étaient bel et bien exploitables pour le projet, à partir d’un corpus de départ de 270 000 heures !
Il a, par exemple, fallu mettre de côté les vidéos enregistrées dans le mode créatif, ou encore celles qui contenaient des logos ou des artefacts qui auraient pu nuire à leur compréhension par la machine.
Enfin, petite subtilité : afin de faciliter le début de partie de leur bébé, les chercheurs ont aussi extrait de ces milliers de vidéos un sous-ensemble ne comportant que des débuts de partie.

Surtout, les chercheurs ne se sont pas arrêtés là : ils ont par ailleurs créé un modèle (Inverse Dynamics Model, IDM) avec une seconde série de vidéos de Minecraft. Il s’agit d’un corpus beaucoup plus petit (seulement 2 000 heures) mais qui a l’avantage d’être très précis. Car toutes ces parties ont été effectuées spécialement pour l’expérience par plusieurs joueurs de Minecraft aguerris. Les chercheurs ont ainsi pu enregistrer tous leurs mouvements de souris et l’ensemble des manipulations effectuées sur leur clavier.

Les premières étapes de l’entraînement // Crédit : OpenAI

Ensuite, ils ont, en substance, appliqué ce modèle aux 70 000 heures de vidéo qu’ils avaient précédemment glanées sur le Web. De cette manière, leur IA a pu « deviner » les mouvements de souris et de clavier qui ont été effectués dans ces vidéos et s’en inspirer. Malin.

Après avoir été entraînée de cette manière, l’IA parvient déjà à effectuer quelques tâches basiques dans le jeu, comme couper du bois pour en faire des rondins, puis des planches, puis une table de craft avec quatre planches. Une étape triviale pour un joueur humain, évidemment, mais qui est, selon OpenAI, quasi impossible à réaliser par un simple apprentissage par renforcement.

C’est bien, mais pas suffisant

Voilà qui est déjà correct, mais pas suffisant pour nos chercheurs. Ils ont donc peaufiné leur IA pour tenter de lui donner plus de skill, en utilisant avec succès deux techniques différentes. D’abord, ils ont demandé à leurs experts humains de Minecraft d’effectuer des sessions de 10 minutes durant lesquelles leur objectif était de fabriquer une petite maison à partir de matériaux basiques.
En intégrant ces parties au modèle, ils se sont rendu compte que l’IA parvenait non seulement à se fabriquer un modeste abri, mais également à aller beaucoup plus loin dans la création d’objets complexes (comme une pioche en pierre, par exemple).

Enfin, ils ont aussi utilisé l’apprentissage par renforcement, en exigeant de leur IA qu’elle obtienne une pioche en diamant en dix minutes de jeu dans une carte vierge, et en la récompensant pour ses efforts. Pas facile, étant donné qu’il faut pour cela collecter, combiner et crafter une longue série d’objets successifs et pas faciles à trouver. Mais elle y est tout de même parvenue à quelques reprises, soit 2,5 % des parties de dix minutes jouées.

Mais pourquoi apprendre Minecraft à une IA ?

Evidemment, OpenAI n’a pas fait tout cela pour tenter de créer un joueur « surhumain » à Minecraft, même si ses chercheurs estiment qu’ils pourraient collecter un million d’heures de jeu pour parfaire leur modèle. Non, VPT pourrait surtout ouvrir la voie à une nouvelle manière d’apprendre à une IA à « agir » étape par étape, à la manière d’un humain.

« Les résultats présentés dans cet article aident à ouvrir la voie à l’utilisation de la richesse des données non étiquetées sur le Web pour les domaines de décision séquentiels. » peut-on lire dans la conclusion du papier scientifique d’OpenAI.

Pour mieux comprendre cette phrase un peu assommante, laissons Minecraft pour nous intéresser à Photoshop. On peut tout à fait imaginer une intelligence artificielle similaire, entraînée en VPT avec les milliers de tutoriels Photoshop disponibles sur le Web, qui apprendrait à se déplacer dans les menus de l’application, à cliquer, à appliquer des filtres, à retoucher une photo… Voilà qui faciliterait grandement le travail de certains graphistes !

 

Source :

OpenAI



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.