Et si, plutôt qu’une menace pour l’humanité, l’intelligence artificielle (IA) générative était avant tout un danger pour elle-même ? Cette idée est au cœur d’une étude, qui n’a pas encore fait l’objet d’une évaluation par des pairs, publiée en mai dernier : à force d’être entraînés avec des données elles-mêmes issues d’IA, de tels outils finissent par accumuler les erreurs et arrêtent de fonctionner normalement.
Ce phénomène, les six auteurs le nomment « effondrement du modèle » (model collapse). Il s’agit d’une dégénérescence ancrée dans les mathématiques (le modèle) qui constituent la base des intelligences artificielles génératives, qu’elles servent à produire des images, du son ou du texte.
Comme leur nom l’indique, les IA génératives sont capables de créer du contenu sur la base d’une entrée textuelle (le prompt). Mais pour cela, elles ont besoin d’être entraînées avec des jeux de données (data sets), c’est-à-dire des informations contextualisées, triées et formatées, représentatives de ce que l’on cherche à leur faire faire.
Prédictions statistiques
Pour un système permettant de générer du texte, par exemple, comme Bard ou ChatGPT, des millions de pages ont ainsi été nécessaires pour leur apprendre à prédire le mot qui arrive après « jamais deux sans… », et plus largement à produire des paragraphes cohérents. Même chose pour les IA générant de l’image : il a fallu les « nourrir » de quantités astronomiques d’éléments visuels annotés pour qu’elles parviennent à remplir automatiquement une zone vide d’une image en fonction de ce qui semble le plus probable.
La matière première constituant ces jeux de données est initialement générée par l’activité humaine et largement récupérée sur Internet. Pour le texte, il peut s’agir de billets sur les réseaux sociaux, d’évaluations d’acheteurs sur des sites d’e-commerce ou d’articles de presse. Pour les images, il peut s’agir de bases de données de visages, ou des collections annotées de clichés pris par un satellite.
Les IA génératives sont donc avant tout des systèmes de prédiction statistique : ce qu’elles produisent est fondé sur des probabilités, elles-mêmes établies en fonction des données issues du monde réel. Or, dans l’hypothèse où on entraînerait les IA avec leur propre production, les occurrences rares risquent, après un certain nombre de générations, de disparaître.
« Les modèles ont la fâcheuse tendance à faire deux choses : ils surestiment les événements fréquents et sous-estiment ceux qui sont peu plausibles. Et à chaque étape de la récursion, ça s’amplifie, résume au Monde Nicolas Papernot, chercheur à l’université de Toronto ainsi qu’à l’Institut Vecteur, et coauteur de l’étude. L’image facile à comprendre, c’est la photocopieuse. A la première copie, ça se passe bien, mais si on décide de faire une copie de la copie de la copie, on finit par perdre des détails qui étaient présents dans le document original. »
Il vous reste 54.62% de cet article à lire. La suite est réservée aux abonnés.