Depuis le mois de juin, Craiyon (jusqu’alors connu sous le nom de DALL-E Mini), site Internet capable de générer une série de neuf images à partir d’une simple description textuelle, connaît un succès retentissant. Il suffit ainsi de taper, en anglais, « un poulet cru glisse sur un toboggan », « Jésus utilise un casque de réalité virtuelle » ou encore « Bob l’éponge peint à la manière de Claude Monet » pour que ces curieuses descriptions se transforment en images plus ou moins réussies. Sa viralité s’explique notamment par sa gratuité : selon son créateur, Boris Dayma, un Français installé à Houston, il reçoit actuellement plus d’un million de requêtes par jour.
Construit sur le code informatique du désormais obsolète projet DALL-E, développé par OpenAI, société fondée par Elon Musk et Sam Altman, il permet de se servir de l’intelligence artificielle (IA) pour concevoir une infinité d’images. Mais si DALL-E 2, le nouveau projet d’OpenAI, ou encore les outils Parti et Imagen, développés par Google, proposent des résultats tellement proches de la réalité qu’ils en sont virtuellement indiscernables, Craiyon, qui s’appuie sur une technologie plus ancienne et une puissance de calcul plus limitée, a toujours été pensé pour le grand public. « Je voulais vraiment que cette technologie soit dans les mains de tous les utilisateurs, qu’ils puissent observer de quoi sont capables les modèles de pointe », explique au Monde M. Dayma.
Une approche assumée par l’équipe de développement, mais aussi par Clément Delangue, le PDG français de la société Hugging Face, qui accompagne le développement de Craiyon. « Il y a deux approches différentes dans le domaine, énumère-t-il. Certaines entreprises, comme OpenAI et les Gafam [Google, Amazon, Facebook, Apple et Microsoft] construisent leurs outils de manière très privée – ce qui peut créer une concentration de pouvoirs et constitue un gros risque en termes d’apprentissage automatique. Dans notre cas, l’idée était de sortir le modèle publiquement pour continuer de travailler dessus de manière collaborative, afin que les utilisateurs puissent avoir toutes les informations sur son fonctionnement. »
Une sorte de laboratoire à ciel ouvert
Google, pour l’heure, n’a pas souhaité faire paraître de version publique de son projet Imagen. Dans un billet publié en juin, un chercheur et un ingénieur de l’entreprise reconnaissent ainsi que si « les modèles de génération d’images à partir de textes sont des outils stimulants pour l’inspiration et la créativité, (…) ils comportent également des risques liés à la désinformation, aux biais et à la sécurité. »
Il vous reste 69.06% de cet article à lire. La suite est réservée aux abonnés.