Comment reconnaître une image générée par Midjourney ?

Comment reconnaître une image générée par Midjourney ?


Donald Trump arrêté par les policiers au pied de la Trump Tower à New York, Emmanuel Macron qui mange de la boue, ou encore le pape en doudoune…, ces photos ont été partagées des dizaines, centaines de milliers, voire millions de fois sur les réseaux sociaux depuis la mi-mars. Pourtant, les événements dont elles sont censées rendre compte n’ont pas eu lieu.

Ces images ont été générées par la dernière version en ligne d’une intelligence artificielle (IA) de dernière génération, Midjourney. Et avec quel succès ! La qualité de leur grain, la ressemblance des visages, le réalisme des textures et des couleurs sont tels qu’elles ont trompé plus d’un internaute.

La sophistication de plus en plus avancée de ces outils promet un monde dans lequel distinguer une véritable photo d’une création informatique sera quasi impossible, quand ce n’est pas déjà le cas. Alors que mettre en scène le pape François dans des situations décalées est devenu depuis ces derniers jours l’une des activités les plus à la mode sur le forum Reddit, quelques indices permettent encore, parfois, de ne pas se faire avoir.

Lire aussi : Article réservé à nos abonnés Dans le sillage de ChatGPT, la course à l’intelligence artificielle

1. Des mains bizarres

Le point faible principal des intelligences artificielles visuelles se situe au niveau des mains. L’intelligence artificielle ne fait pas systématiquement d’erreur sur ce genre de détail, mais quand c’est le cas, il s’agit souvent du moyen le plus simple pour la confondre.

Taille et nombre de doigts, entrelacement de ceux-ci, bagues…, elle comprend mal l’anatomie humaine et, par conséquent, se livre souvent à des reconstitutions quelque peu hasardeuses.

Dans le cas du pape en doudoune Balenciaga, il s’agissait d’un des seuls indices. Ses deux mains ne font pas la même taille, l’une d’elles semble tenir une gourde d’un geste peu naturel, tandis que la seconde montre trois doigts qui se rejoignent en deux doigts bagués.

L’image du pape en doudoune Balenciaga est devenue virale. Pour ne pas se laisser berner, il fallait prêter attention à ses deux mains : d’un côté, elles portent sans la toucher une étrange gourde ; de l’autre, deux bagues se chevauchent.

L’image infamante d’Emmanuel Macron mangeant de la boue est également trahie par l’une des mains du président, qui affiche… sept doigts.

Pas moins de sept doigts, seulement pour la main droite : c’est le genre d’absurdité qui permet de facilement déceler une image générée par ordinateur – si jamais son thème fantasque ou ordurier n’était pas suffisant.

Une autre image artificielle du pape, cette fois sur une plage, le montre doté de seulement trois doigts à la main gauche. Les pieds ne sont pas mieux lotis : le pape fait négligemment bronzer six orteils.

Six orteils à un pied, quatre doigts sans pouce à une main, trois à une autre : sur cette fausse image du pape, la cohérence a été mise à l’index.

2. Des couvre-chefs incohérents

L’intelligence artificielle a toutes les peines du monde à comprendre la forme, la fonction et la logique de ce que les humains se posent sur la caboche. Sa perplexité est d’autant plus flagrante quand il y a plusieurs personnages en même temps.

Par exemple, sur les photos fictives de l’arrestation de Donald Trump : les trois représentants de l’ordre qui l’entourent portent respectivement des casquettes – passe encore – et un étrange casque métallique qui s’arrête à mi-hauteur du crâne.

Etrange opération de police : les trois représentants de l’ordre portent des coiffes différentes. Celui qui se trouve de dos porte même un casque étrange qui ne lui couvre pas l’intégralité de la tête. Au passage, Donald Trump se voit équipé d’une ceinture de police.

Dans une reconstitution imaginaire du plateau de tournage des premiers pas sur la Lune (qui seraient une mise en scène, comme chaque complotiste le sait), les différents astronautes ont sur la tête tantôt une casquette, tantôt une visière sans masque, tantôt… une calotte en plastique.

Sur ces deux images du « tournage » de la mission Apollo 11 générées informatiquement, Midjourney témoigne de sa difficulté à doter les personnages humains de casques cohérents.

3. Une anatomie aberrante

Vaste thématique, pourtant centrale : l’intelligence artificielle est entraînée à synthétiser les fichiers qu’elle consulte. Elle excelle donc dans la génération d’images ressemblantes, mais elle ne comprend rien à la structure sous-jacente des objets et des personnes. Résultat : des corps qui peuvent régulièrement se trouver dans des situations étranges.

Une perspective impossible : le pape est assis dans la voiture… mais se trouve devant elle.

Au mieux, il s’agira d’un subtil déséquilibre, comme les deux jambes de Donald Trump dans un alignement bien trop parfait pour être stable, ou du pape qui parvient à être à la fois assis sur le siège d’une voiture et devant celle-ci. Au pire, le rendu sera absurde, comme quand Emmanuel Macron, pour être présenté comme un mangeur de boue, se retrouve enterré à mi-buste.

4. Des textes dénués de sens

On sait que l’intelligence artificielle comprend relativement bien ce qu’elle lit, quand il s’agit d’instructions, mais quand il s’agit pour elle d’écrire, c’est la grande improvisation. Elle fait ce qu’elle sait faire de mieux : bluffer, en utilisant des polices de caractères en apparence cohérentes, mais qui habillent le plus souvent un charabia aléatoire et illisible.

Le Monde

Offre spéciale

Accédez à tous nos contenus en illimité à partir de 10,99 5,49 €/mois pendant 1 an.

En profiter

A l’image de cette « photo » du prince Harry et de son épouse, Meghan, que Midjourney a imaginés en employés un peu enrobés d’un supermarché américain. Les enseignes comme la marque du polo princier n’ont aucun sens, et plusieurs lettres ressemblent plutôt à des inventions.

Avec Midjourney, les textes n’en sont pas vraiment : ce sont plutôt des enchaînements aléatoires de lettres réelles ou fictives, qui n’ont pas vraiment de sens ni même de prononciation possible.

Ou de cette visualisation numérique d’une scène de hockey aquatique, un sport inventé pour l’occasion, dans laquelle un sportif arbore une inscription illisible.

Sur les épaules de ce joueur de hockey aquatique, des inscriptions illisibles : et pour cause, il s’agit d’une fausse photo d’un faux sport.

Ou encore du logo « gliof », au lieu de « police », sur le plastron de ce policier parisien en pleine conversation, extrêmement réaliste, avec un personnage de Sesame Street.

Logo fantaisiste sur le plastron de ce policier parisien en pleine conversation avec un personnage de « Sesame Street ».

5. Des objets dysfonctionnels

Midjourney n’est pas un champion en design industriel : il est capable d’imiter le style d’une époque, mais il comprend rarement la structure des objets dans le détail. D’où de nombreuses anomalies, comme des téléphones tenus de travers ou dont la forme défie l’imagination.

Midjourney semble avoir connaissance de l’existence des téléphones à clapet, mais il ne comprend pas tout à fait leur concept.

Autre exemple, sur cette « photo » du pape à la plage, sa chaise pliante présente un nombre anormalement élevé de pieds (bon courage pour la plier), tandis que le parasol semble planté dans le ventre papal.

Sur cette image du pape à la plage, la chaise pliante présente un nombre anormalement élevé de pieds.

Sur une image de cuisine idéale générée par Midjourney, il faut s’intéresser aux pieds des tables et des chaises pour s’apercevoir que ces dernières ne peuvent physiquement pas tenir en équilibre.

Parfois – comme ici – observer la forme absurde des chaises permet d’identifier une photo générée par intelligence artificielle.

6. Une architecture irrégulière

Midjourney ne comprend pas très bien les motifs répétitifs, qu’il restitue comme il peut. C’est vrai avec les arbres situés en arrière-plan : il n’est pas rare qu’il invente des troncs qui se séparent en plusieurs branches, mais rien que la nature interdise. Il en va autrement des éléments d’architecture, sur lesquels il improvise de manière plus visible.

Par exemple, sur cette image de Will Smith en conducteur parisien, la forme des fenêtres varie d’un étage à l’autre.

Détail subtil qui trahit une IA : la structure des fenêtres n’est pas la même d’un étage à l’autre.

Sur cette « photo » du pape face à une soucoupe volante, les colonnades défient toutes les règles d’alignement : elles sont irrégulières, à la fois en hauteur et en largeur.

Ici, les colonnades défient toutes les règles d’alignement.

Il n’est pas dit que ces défauts ne seront pas résolus lors de la prochaine mise à jour du logiciel, d’ici à quelques mois. En attendant, on peut se rappeler que toutes ces créations partagent d’autres indices de leur caractère artificiel et qu’il n’est pas nécessaire de les observer à la loupe pour les repérer. D’une part, elles ne sont jamais sourcées, ne renvoient jamais à un article ou à un photographe (et pour cause). D’autre part, l’éléphant est parfois au milieu de la pièce : quand une soucoupe volante fait face au pape, peut-être n’y a-t-il pas besoin d’éplucher les pixels pour se convaincre que l’image est l’œuvre d’un plaisantin. Dans les autres cas, il faudra désormais redoubler de prudence.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.