La sécurité de l’IA générative ne tient finalement pas à grand chose. Un petit nombre de documents malveillants suffit pour « empoisonner » un grand modèle de langage, quelle que soit sa taille ou la quantité des données utilisée. Explications avec cette étude inédite d’Anthrophic.
Les grands modèles de langage (LLM), qui servent de base aux IA génératives comme ChatGPT, ont besoin d’ingurgiter et de traiter des monceaux de données pour être efficaces. Mais gare : une poignée de contenus malveillants peut empoisonner l’ensemble d’un modèle !
Infecter une IA est plus simple qu’on ne le pense
Une étude réalisée par Anthropic (créateur du bot Claude), l’Alan Turing Institute et le UK AI Security Institute a démontré qu’il suffit d’environ 250 documents empoisonnés pour altérer un modèle — qu’il compte 600 millions ou 13 milliards de paramètres. L’idée reçue selon laquelle un attaquant doit contrôler un certain pourcentage du corpus d’apprentissage est donc battue en brèche.
Dans leur expérience, l’équipe de chercheurs a introduit une « porte dérobée » associée à une phrase déclencheuse. Lorsque ce prompt apparaît dans une requête, le modèle génère alors du texte incohérent. Il s’agit d’une attaque de type « denial of service » (DDoS) qui ne présente pas de danger immédiat. Mais elle montre à quel point un modèle peut être manipulé par un volume de données négligeable.
La vulnérabilité d’un modèle ne dépend pas de la proportion de données corrompues, mais du nombre de documents malveillants auxquels il est exposé. Cela signifie qu’un acteur malintentionné pourrait théoriquement insérer de telles données dans des pages web ou des blogs susceptibles d’être collectés par les systèmes d’entraînement d’IA (très gourmands, ils collectent tout ce qui passe).
Ces travaux visent avant tout à alerter la communauté scientifique : les attaques par empoisonnement sont plus faciles à réaliser qu’on ne le pensait, et c’est un risque structurel qui fragilise la fiabilité et la sécurité des LLM. Les auteurs recommandent donc de renforcer les mécanismes de défense et de détection lors de la constitution des jeux de données.
🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.
Source :
Anthropic