Donald Trump arrêté par les policiers au pied de la Trump Tower à New York, Emmanuel Macron qui mange de la boue, ou encore le pape en doudoune…, ces photos ont été partagées des dizaines, centaines de milliers, voire millions de fois sur les réseaux sociaux depuis la mi-mars. Pourtant, les événements dont elles sont censées rendre compte n’ont pas eu lieu.
Ces images ont été générées par la dernière version en ligne d’une intelligence artificielle (IA) de dernière génération, Midjourney. Et avec quel succès ! La qualité de leur grain, la ressemblance des visages, le réalisme des textures et des couleurs sont tels qu’elles ont trompé plus d’un internaute.
La sophistication de plus en plus avancée de ces outils promet un monde dans lequel distinguer une véritable photo d’une création informatique sera quasi impossible, quand ce n’est pas déjà le cas. Alors que mettre en scène le pape François dans des situations décalées est devenu depuis ces derniers jours l’une des activités les plus à la mode sur le forum Reddit, quelques indices permettent encore, parfois, de ne pas se faire avoir.
1. Des mains bizarres
Le point faible principal des intelligences artificielles visuelles se situe au niveau des mains. L’intelligence artificielle ne fait pas systématiquement d’erreur sur ce genre de détail, mais quand c’est le cas, il s’agit souvent du moyen le plus simple pour la confondre.
Taille et nombre de doigts, entrelacement de ceux-ci, bagues…, elle comprend mal l’anatomie humaine et, par conséquent, se livre souvent à des reconstitutions quelque peu hasardeuses.
Dans le cas du pape en doudoune Balenciaga, il s’agissait d’un des seuls indices. Ses deux mains ne font pas la même taille, l’une d’elles semble tenir une gourde d’un geste peu naturel, tandis que la seconde montre trois doigts qui se rejoignent en deux doigts bagués.
L’image infamante d’Emmanuel Macron mangeant de la boue est également trahie par l’une des mains du président, qui affiche… sept doigts.
Une autre image artificielle du pape, cette fois sur une plage, le montre doté de seulement trois doigts à la main gauche. Les pieds ne sont pas mieux lotis : le pape fait négligemment bronzer six orteils.
2. Des couvre-chefs incohérents
L’intelligence artificielle a toutes les peines du monde à comprendre la forme, la fonction et la logique de ce que les humains se posent sur la caboche. Sa perplexité est d’autant plus flagrante quand il y a plusieurs personnages en même temps.
Par exemple, sur les photos fictives de l’arrestation de Donald Trump : les trois représentants de l’ordre qui l’entourent portent respectivement des casquettes – passe encore – et un étrange casque métallique qui s’arrête à mi-hauteur du crâne.
Dans une reconstitution imaginaire du plateau de tournage des premiers pas sur la Lune (qui seraient une mise en scène, comme chaque complotiste le sait), les différents astronautes ont sur la tête tantôt une casquette, tantôt une visière sans masque, tantôt… une calotte en plastique.
3. Une anatomie aberrante
Vaste thématique, pourtant centrale : l’intelligence artificielle est entraînée à synthétiser les fichiers qu’elle consulte. Elle excelle donc dans la génération d’images ressemblantes, mais elle ne comprend rien à la structure sous-jacente des objets et des personnes. Résultat : des corps qui peuvent régulièrement se trouver dans des situations étranges.
Au mieux, il s’agira d’un subtil déséquilibre, comme les deux jambes de Donald Trump dans un alignement bien trop parfait pour être stable, ou du pape qui parvient à être à la fois assis sur le siège d’une voiture et devant celle-ci. Au pire, le rendu sera absurde, comme quand Emmanuel Macron, pour être présenté comme un mangeur de boue, se retrouve enterré à mi-buste.
4. Des textes dénués de sens
On sait que l’intelligence artificielle comprend relativement bien ce qu’elle lit, quand il s’agit d’instructions, mais quand il s’agit pour elle d’écrire, c’est la grande improvisation. Elle fait ce qu’elle sait faire de mieux : bluffer, en utilisant des polices de caractères en apparence cohérentes, mais qui habillent le plus souvent un charabia aléatoire et illisible.
Le Monde
Offre spéciale
Accédez à tous nos contenus en illimité à partir de 10,99 5,49 €/mois pendant 1 an.
En profiter
A l’image de cette « photo » du prince Harry et de son épouse, Meghan, que Midjourney a imaginés en employés un peu enrobés d’un supermarché américain. Les enseignes comme la marque du polo princier n’ont aucun sens, et plusieurs lettres ressemblent plutôt à des inventions.
Ou de cette visualisation numérique d’une scène de hockey aquatique, un sport inventé pour l’occasion, dans laquelle un sportif arbore une inscription illisible.
Ou encore du logo « gliof », au lieu de « police », sur le plastron de ce policier parisien en pleine conversation, extrêmement réaliste, avec un personnage de Sesame Street.
5. Des objets dysfonctionnels
Midjourney n’est pas un champion en design industriel : il est capable d’imiter le style d’une époque, mais il comprend rarement la structure des objets dans le détail. D’où de nombreuses anomalies, comme des téléphones tenus de travers ou dont la forme défie l’imagination.
Autre exemple, sur cette « photo » du pape à la plage, sa chaise pliante présente un nombre anormalement élevé de pieds (bon courage pour la plier), tandis que le parasol semble planté dans le ventre papal.
Sur une image de cuisine idéale générée par Midjourney, il faut s’intéresser aux pieds des tables et des chaises pour s’apercevoir que ces dernières ne peuvent physiquement pas tenir en équilibre.
6. Une architecture irrégulière
Midjourney ne comprend pas très bien les motifs répétitifs, qu’il restitue comme il peut. C’est vrai avec les arbres situés en arrière-plan : il n’est pas rare qu’il invente des troncs qui se séparent en plusieurs branches, mais rien que la nature interdise. Il en va autrement des éléments d’architecture, sur lesquels il improvise de manière plus visible.
Par exemple, sur cette image de Will Smith en conducteur parisien, la forme des fenêtres varie d’un étage à l’autre.
Sur cette « photo » du pape face à une soucoupe volante, les colonnades défient toutes les règles d’alignement : elles sont irrégulières, à la fois en hauteur et en largeur.
Il n’est pas dit que ces défauts ne seront pas résolus lors de la prochaine mise à jour du logiciel, d’ici à quelques mois. En attendant, on peut se rappeler que toutes ces créations partagent d’autres indices de leur caractère artificiel et qu’il n’est pas nécessaire de les observer à la loupe pour les repérer. D’une part, elles ne sont jamais sourcées, ne renvoient jamais à un article ou à un photographe (et pour cause). D’autre part, l’éléphant est parfois au milieu de la pièce : quand une soucoupe volante fait face au pape, peut-être n’y a-t-il pas besoin d’éplucher les pixels pour se convaincre que l’image est l’œuvre d’un plaisantin. Dans les autres cas, il faudra désormais redoubler de prudence.