Depuis la sortie de DALL-E en 2021, le premier modèle d’IA générateur d’images qui a popularisé la technologie d’IA Gen pour le graphisme, de nombreux progrès ont été réalisés. Comment ? Amélioration de la qualité, de la vitesse et de la rapidité d’exécution.
Mais même aujourd’hui, les générateurs d’images les plus rapides prennent quelques secondes pour créer une image. Sauf celui-ci.
HART, abréviation de Hybrid Autoregressive Transformer (transformateur hybride autorégressif), est un générateur d’images à partir de texte développé par le MIT, Nvidia et l’université de Tsinghua. Il se caractérise par une vitesse et des générations sans précédent, avec une latence de 3,1 à 5,9 fois inférieure à celle des modèles de diffusion les plus récents. La principale différence ? La manière dont HART a été formé.
De l’avantage du modèle de génération visuelle autorégressif
Sans entrer dans les détails, au lieu d’utiliser un modèle de diffusion, qui est la méthode d’entraînement employée par la plupart des générateurs d’images IA populaires, y compris DALL-E d’OpenAI et Imagen 3 de Google, HART est un modèle de génération visuelle autorégressif (AR), le même que le générateur d’images GPT-4o récemment publié par OpenAI.
Les modèles AR permettent de mieux contrôler l’image finale en la générant étape par étape. Cependant, l’entraînement de ces modèles est coûteux. Et la qualité peut en souffrir à des résolutions plus élevées. Pour remédier à ce problème, les chercheurs ont introduit un tokenizer hybride qui permet de traiter plus efficacement les différentes parties de l’image. Résultat : HART est plus rapide et a un meilleur rendement que les modèles de diffusion.
Étant donné que la plupart des modèles d’IA prennent au moins quelques secondes pour générer des images, ce qui est de toute façon très rapide, je ne m’attendais pas à ce que la vitesse de HART m’impressionne beaucoup. Mais je me trompais. Le modèle est accompagné d’un chronomètre pour chronométrer chaque génération. Après avoir utilisé le modèle plusieurs fois, j’ai remarqué qu’il fallait 1,8 seconde pour générer des images. Pour donner un ordre d’idée, c’est le temps qu’il faut pour dire « Abracadabra ».
La comparaison de performances entre ChatGPT-40, Imagen 3, et HART
Le même prompt que j’ai utilisé pour générer les images en haut de l’article a pris une minute et 45 secondes au générateur d’images GPT-4o d’OpenAI. Et environ 10 secondes à Imagen 3 de Google. La qualité des trois générateurs était comparable, l’image de Google prend la tête du classement, combinant le mieux vitesse et qualité.
Génération d’images AI d’un chien avec un chapeau de clown. Prompt : Un chien portant un chapeau de clown sur un fond coloré. (De gauche à droite : modèle d’image ChatGPT-40, Imagen 3 de Gemini, HART.) Sabrina Ortiz/ZDNET via ChatGPT/Gemini/HART
Malgré la rapidité du modèle de Google, Imagen 3 a mis environ 10 fois plus de temps que HART pour générer l’image. J’ai testé la plupart des modèles de conversion de texte en image sur le marché. Et HART est le plus rapide.
Si vous souhaitez essayer HART, vous pouvez y accéder gratuitement ici. Le code d’inférence est également ouvert et accessible via un dépôt GitHub public, que les développeurs, les universitaires ou les amateurs d’IA peuvent utiliser pour poursuivre leurs recherches sur les générateurs d’images.