le NIST a identifi les diffrents types de cyberattaques qui manipulent le comportement des systmes d’IA

Les textes gnrs par l'IA pourraient accrotre l'exposition aux menaces L'identification des contenus malveillants ou abusifs deviendra plus difficile pour les fournisseurs de plateformes



Alors que les systmes d’IA continuent de se dvelopper, le paysage des menaces qui les ciblent se dveloppe lui aussi. Le National Institute of Standards and Technology (NIST) vient de publier un rapport indiquant que des acteurs malveillants utilisent l’apprentissage automatique pour contourner ces systmes. Sur la base des conclusions prsentes dans ce rapport, cette menace va probablement s’accrotre dans un avenir proche.

Les attaquants peuvent dlibrment confondre ou mme « empoisonner » les systmes d’intelligence artificielle (IA) pour les faire dysfonctionner – et il n’y a pas de dfense infaillible que leurs dveloppeurs puissent employer. Des informaticiens du National Institute of Standards and Technology (NIST) et leurs collaborateurs identifient ces vulnrabilits de l’IA et de l’apprentissage automatique, ainsi que d’autres, dans une nouvelle publication.

Leur travail, intitul Adversarial Machine Learning : A Taxonomy and Terminology of Attacks and Mitigations, s’inscrit dans le cadre des efforts plus larges du NIST pour soutenir le dveloppement d’une IA digne de confiance, et peut aider mettre en pratique le cadre de gestion des risques de l’IA du NIST. Ce document, fruit d’une collaboration entre le gouvernement, le monde universitaire et l’industrie, vise aider les dveloppeurs et les utilisateurs de l’IA se familiariser avec les types d’attaques auxquels ils peuvent s’attendre, ainsi qu’avec les mthodes permettant de les attnuer, tout en sachant qu’il n’existe pas de solution miracle.

« Nous fournissons une vue d’ensemble des techniques et mthodologies d’attaque qui prennent en compte tous les types de systmes d’IA« , a dclar Apostol Vassilev, informaticien au NIST et l’un des auteurs de la publication. « Nous dcrivons galement les stratgies d’attnuation actuelles dcrites dans la littrature, mais ces dfenses disponibles manquent actuellement de garanties solides quant leur capacit attnuer pleinement les risques. Nous encourageons la communaut proposer de meilleures dfenses« .

Les systmes d’IA ont pntr la socit moderne, travaillant dans des capacits allant de la conduite de vhicules l’aide au diagnostic de maladies par les mdecins, en passant par l’interaction avec les clients sous la forme de chatbots en ligne. Pour apprendre effectuer ces tches, ils sont forms partir de grandes quantits de donnes : Un vhicule autonome peut se voir prsenter des images d’autoroutes et de rues avec des panneaux de signalisation, par exemple, tandis qu’un chatbot bas sur un grand modle de langage (LLM) peut tre expos des enregistrements de conversations en ligne. Ces donnes aident l’IA prdire comment ragir dans une situation donne.

L’un des principaux problmes rside dans le fait que les donnes elles-mmes peuvent ne pas tre dignes de confiance. Elles peuvent provenir de sites web et d’interactions avec le public. Il existe de nombreuses possibilits pour les acteurs malveillants de corrompre ces donnes, la fois pendant la priode de formation d’un systme d’IA et par la suite, lorsque l’IA continue d’affiner ses comportements en interagissant avec le monde physique. L’IA peut alors se comporter de manire indsirable. Les chatbots, par exemple, peuvent apprendre rpondre par des propos injurieux ou racistes lorsque leurs garde-fous sont contourns par des prompts malveillants soigneusement labors.

« La plupart du temps, les dveloppeurs de logiciels ont besoin qu’un plus grand nombre de personnes utilisent leur produit pour qu’il s’amliore avec l’exposition« , a dclar M. Vassilev. « Mais il n’y a aucune garantie que l’exposition sera bonne. Un chatbot peut cracher des informations mauvaises ou toxiques lorsqu’on le sollicite avec un langage soigneusement conu.« 

En partie parce que les ensembles de donnes utiliss pour former une IA sont beaucoup trop importants pour que les gens puissent les surveiller et les filtrer avec succs, il n’existe pas encore de moyen infaillible de protger l’IA contre les erreurs d’orientation. Pour aider la communaut des dveloppeurs, le nouveau rapport offre une vue d’ensemble des types d’attaques dont ses produits d’IA pourraient tre victimes et des approches correspondantes pour rduire les dommages.

Le rapport examine les quatre principaux types d’attaques : l’vasion, l’empoisonnement, les atteintes la vie prive et les abus. Il les classe galement en fonction de multiples critres tels que les buts et objectifs de l’attaquant, ses capacits et ses connaissances.

Les attaques par vasion, qui se produisent aprs le dploiement d’un systme d’IA, tentent de modifier une entre pour changer la faon dont le systme y rpond. Il peut s’agir, par exemple, d’ajouter des marquages aux panneaux d’arrt pour qu’un vhicule autonome les interprte tort comme des panneaux de limitation de vitesse ou de crer des marquages de voies confus pour que le vhicule dvie de la route.

Les attaques par empoisonnement se produisent au cours de la phase de formation par l’introduction de donnes corrompues. Un exemple serait de glisser de nombreux exemples de langage inappropri dans les enregistrements de conversation, de sorte qu’un chatbot interprte ces exemples comme un langage suffisamment courant pour les utiliser dans ses propres interactions avec les clients.

Les attaques contre la vie prive, qui se produisent pendant le dploiement, sont des tentatives d’apprendre des informations sensibles sur l’IA ou les donnes sur lesquelles elle a t forme afin de l’utiliser mauvais escient. Un adversaire peut poser de nombreuses questions lgitimes un chatbot, puis utiliser les rponses pour rtroconcevoir le modle afin de trouver ses points faibles ou de deviner ses sources. L’ajout d’exemples indsirables ces sources en ligne pourrait amener l’IA se comporter de manire inapproprie, et il peut tre difficile de faire dsapprendre l’IA ces exemples indsirables spcifiques aprs coup.

Les attaques par abus impliquent l’insertion d’informations incorrectes dans une source, telle qu’une page web ou un document en ligne, que l’IA absorbe ensuite. Contrairement aux attaques par empoisonnement susmentionnes, les attaques par abus visent fournir l’IA des lments d’information incorrects provenant d’une source lgitime mais compromise, afin de dtourner l’utilisation prvue du systme d’IA.

« La plupart de ces attaques sont assez faciles mettre en place et ncessitent une connaissance minimale du systme d’IA et des capacits adverses limites« , a dclar Alina Oprea, professeur la Northeastern University et coauteur de l’tude. « Les attaques par empoisonnement, par exemple, peuvent tre montes en contrlant quelques douzaines d’chantillons d’entranement, ce qui reprsente un trs faible pourcentage de l’ensemble de l’entranement. »

Les auteurs, dont Alie Fordyce et Hyrum Anderson, chercheurs Robust Intelligence Inc., dcomposent chacune de ces classes d’attaques en sous-catgories et ajoutent des approches pour les attnuer, bien que la publication reconnaisse que les dfenses que les experts en IA ont conues pour les attaques adverses jusqu’ prsent sont au mieux incompltes. Il est important que les dveloppeurs et les organisations qui cherchent dployer et utiliser la technologie de l’IA soient conscients de ces limites, a dclar M. Vassilev.

« Malgr les progrs considrables raliss par l’IA et l’apprentissage automatique, ces technologies sont vulnrables aux attaques qui peuvent provoquer des checs spectaculaires aux consquences dsastreuses« , a-t-il dclar. « La scurisation des algorithmes d’IA pose des problmes thoriques qui n’ont tout simplement pas encore t rsolus. Si quelqu’un dit le contraire, c’est qu’il vend de l’huile de serpent« .

Source : « NIST Identifies Types of Cyberattacks That Manipulate Behavior of AI Systems » (NIST)

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette tude du NIST crdible ou pertinente ?

Selon vous, quelle est l’importance des dfis poss par ces diffrents types d’attaques ? Pensez-vous qu’il existe actuellement des stratgies efficaces pour attnuer ces risques ?

Voir aussi :

Des chercheurs dcouvrent un moyen simple de faire en sorte qu’une IA ignore ses garde-fous et diffuse des contenus interdits, l’exploit affecte aussi bien ChatGPT que ses rivaux Bard et Claude

Attaques d’empoisonnement spcifiques aux invites sur les modles gnratifs texte-image : Nightshade altre les donnes d’entranement et permet aux artistes de lutter contre l’IA gnrative

L’IA peut tre facilement induite en erreur par des attaques contradictoires, devrait-on s’en inquiter ?

Dcouvrir les attaques par courrier lectronique gnres par l’IA : exemples rels de 2023, dcouvrez comment les pirates utilisent l’IA gnrative pour contourner la scurit et tromper les employs



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.