Les dernières élections américaines ont à nouveau mis en avant la manipulation de l’information par l’intelligence artificielle (IA) : on se souvient ainsi des images deepfake relayées par Donald Trump annonçant son soutien par Taylor Swift, tandis que Grok, l’IA développée par X, le réseau social d’Elon Musk, a été accusée de promouvoir les théories complotistes et les campagnes de dénigrement contre Kamala Harris. Si ce type de manipulation n’a rien de nouveau, il est facilité par l’IA générative avec au moins trois risques : son utilisation par des agents malveillants, un alignement défectueux des réponses de l’IA avec les valeurs de ses utilisateurs, et une confiance excessive des usagers dans des résultats réalistes mais peut-être faux.
Pour éviter le détournement des textes et images de synthèse, il faut au minimum être capable de les identifier. Même si cela n’a visiblement pas jusqu’ici empêché les abus, 25 leaders de la tech se sont engagés en février à combattre l’utilisation trompeuse de l’IA dans les élections. Ces entreprises mettent notamment en place des techniques permettant d’identifier formellement les contenus créés par leurs IA en incrustant une signature infalsifiable mais invisible à l’œil nu (« tatouage numérique ») dans les images, comme le prévoit d’ailleurs l’AI Act voté par le Parlement européen.
Difficile définition de la fiabilité
Aligner correctement les contenus produits par l’IA générative avec les valeurs et les objectifs de ses développeurs pour proscrire par exemple les contenus haineux ou obtenir d’un moteur de recherche « intelligent » des réponses considérées comme fiables par les développeurs est un défi technique, au-delà de la difficulté d’obtenir un consensus sur les définitions de termes comme « haineux » ou « fiable ». Les méthodes utilisées pour améliorer la qualité des IA génératives et les rendre plus sûres incluent par exemple un apprentissage par renforcement à partir de rétroaction humaine chez OpenAI qui permet d’imiter les préférences exprimées par des opérateurs humains, ou à partir des grands modèles de langage préentraînés chez Google.
Anthropic, autre entreprise américaine d’IA, a développé pour sa part l’IA « constitutionnelle » qui réduit (essentiellement) l’intervention humaine à la définition d’un ensemble de principes gouvernant son comportement (ce qui rappellera à certains les trois lois d’Asimov). Une étude récente montre que malgré les progrès importants obtenus ainsi, les robots conversationnels restent aujourd’hui vulnérables, notamment à des attaques qui jouent sur la formulation des requêtes (prompt injection, dans le jargon de l’IA) pour contourner les mesures de sécurité qui régissent leur comportement. Les grands acteurs de la tech consacrent d’ailleurs des ressources importantes pour attaquer eux-mêmes leurs IA afin d’en révéler les failles (red teaming) et d’y remédier.
Il vous reste 24.46% de cet article à lire. La suite est réservée aux abonnés.