Le prompt : Générer une image photoréaliste du marché de Toronto un samedi de l’été 2006, c’est une belle journée de fin juin, les gens font leurs courses et mangent des sandwichs. le point central doit être une jeune fille asiatique portant une salopette en jean et sirotant un smoothie fraise-banane – le reste peut être flou. la photo doit rappeler celle que prendrait un appareil photo numérique de 2006, avec un horodatage comme pour une photo imprimée. le rapport hauteur/largeur doit être de 3:2. OpenAI
OpenAI élargit son offre ChatGPT, en ajoutant un assistant vocal IA, la compréhension de fichiers et d’images, de nouvelles capacités de recherche, des agents IA, et plus encore. Cependant, il y avait une omission flagrante : un générateur d’images vraiment performant.
Mardi, OpenAI a lancé la génération d’images 4o. Ce modèle d’image est nettement meilleur – bien que plus lent – que les modèles DALL-E proposés précédemment par OpenAI. Il s’attaque à des questions très difficiles telles que des images réalistes et, plus impressionnant encore, un texte précis.
Une démonstration convaincante
Par exemple, lors de la démonstration en direct, Sam Altman, PDG d’OpenAI a demandé à 4o de créer une photo à partir d’un point de vue spécifique et d’un prospectus contenant beaucoup de texte. Après quelques secondes de chargement, l’application a réussi à donner une direction cinématographique correcte et à imprimer avec précision tout le texte.
Capture d’écran par Sabrina Ortiz/ZDNET
Le précédent générateur d’images d’OpenAI était dépourvu de nombreuses fonctionnalités, telles que le référencement d’images, qui peut être utilisé pour créer une nouvelle version de l’image (comme une version animée ou un selfie) ou comme source d’inspiration pour la création d’une œuvre entièrement nouvelle.
Cet outil étant destiné à s’intégrer dans les flux de travail des créatifs, il peut :
- Générer des images sur fond transparent
- Utiliser des couleurs spécifiques à partir de codes HEX
- Mettre en œuvre les capacités conversationnelles avancées du chatbot dans les générations
L’IA a enfin de l’humour !
Par exemple, lorsqu’on lui a demandé d’inclure de l' »humour » dans la photo pendant la démo, il a inclus le texte qui répondait à ce critère.
Le générateur d’images étant accessible dans ChatGPT, les utilisateurs peuvent également affiner les images par le biais d’une conversation à plusieurs tours. Cela facilite l’ajustement des images et permet au modèle d’utiliser le contexte des générations précédentes pour en créer de nouvelles. Et comme GPT-4o a accès au web, ce contexte est également ajouté à la création des images.
Selon l’entreprise, la génération d’images de GPT-4o s’appuie également sur une forte adhésion aux instructions. Il peut gérer de 10 à 20 objets différents, ce qui signifie que vous pouvez lui demander de générer un grand nombre d’objets en une seule fois.
Des mesures de protection plus souples
Un autre aspect nouveau du générateur d’images est qu’il peut désormais créer des contenus plus risqués, ce pour quoi le modèle Grok d’Elon Musk est connu. Altman a indiqué que vous pourrez utiliser le générateur d’images de GPT-4o pour créer du contenu offensant « dans la limite du raisonnable ». Dans un X post après le livestream, Altman a ajouté :
« Ce que nous souhaitons, c’est que l’outil ne crée pas de contenu offensant à moins que vous ne le souhaitiez. Auquel cas il le fera dans les limites du raisonnable. Confier cette liberté intellectuelle et ce contrôle aux utilisateurs est la meilleure chose à faire, mais nous observerons comment cela se passe ».
Le billet de blog annonçant le modèle précise qu’il bloquera les demandes qui violent les politiques en matière de contenu, notamment les documents relatifs aux abus sexuels sur les enfants et les « deepfakes » sexuels. Une autre mesure de protection consiste à limiter ce qui peut être créé lorsque des personnes réelles se trouvent dans le contexte, y compris « des mesures de protection particulièrement robustes concernant la nudité et la violence graphique ».
Comment accéder à ce nouveau générateur d’image
Les fonctionnalités de génération d’images mises à jour sont déployées aujourd’hui dans ChatGPT et Sora. Qu’ils soient abonnés ou non, tous les utilisateurs (y compris les utilisateurs gratuits) auront accès à la génération d’images GPT-4o par défaut.
Si les utilisateurs souhaitent toujours accéder à DALL-E, ils peuvent le faire par le biais d’un GPT dédié à DALL-E. Les utilisateurs des secteurs de l’entreprise et de l’éducation y auront bientôt accès, et l’accès des développeurs via l’API est prévu pour les semaines à venir.
Lorsque DALL-E a été lancé pour la première fois, il était hébergé sur un site web autonome. A l’époque, il semblait être le meilleur et le plus récent. Depuis, il a été déplacé pour résider uniquement dans ChatGPT. Là, le modèle a pâli par rapport aux modèles de génération d’images plus avancés de concurrents tels que Midjourney, Google et Adobe. Cette mise à jour permet désormais de mieux rivaliser avec les autres modèles.