Cloudflare annonce le dveloppement de Firewall for AI, une couche de protection qui peut tre dploye devant les LLM afin d’identifier les abus avant qu’ils n’atteignent les modles d’IA

Les textes gnrs par l'IA pourraient accrotre l'exposition aux menaces L'identification des contenus malveillants ou abusifs deviendra plus difficile pour les fournisseurs de plateformes



Cloudflare annonce ce 4 mars le dveloppement de Firewall for AI (Pare-feu pour l’IA), une couche de protection qui peut tre dploye devant les grands modles de langage (LLM) afin d’identifier les abus avant qu’ils n’atteignent les modles.

Alors que les modles d’IA, et en particulier les LLM, sont en plein essor, les clients de Cloudflare ont fait part de leur inquitude quant aux meilleures stratgies pour scuriser leurs propres LLM. L’utilisation de LLM dans le cadre d’applications connectes l’internet introduit de nouvelles vulnrabilits qui peuvent tre exploites par des acteurs malveillants.

Certaines des vulnrabilits affectant les applications web et API traditionnelles s’appliquent galement au monde des LLM, y compris les injections ou l’exfiltration de donnes. Cependant, il existe un nouvel ensemble de menaces qui sont maintenant pertinentes en raison de la faon dont les LLM fonctionnent. Par exemple, des chercheurs ont rcemment dcouvert une vulnrabilit dans une plateforme de collaboration en IA qui leur permet de dtourner des modles et d’effectuer des actions non autorises.

Firewall for AI est un Web Application Firewall (WAF) avanc spcialement conu pour les applications utilisant des LLM. Il comprendra un ensemble d’outils qui peuvent tre dploys devant les applications pour dtecter les vulnrabilits et fournir une visibilit aux propritaires de modles. Le kit d’outils comprendra des produits qui font dj partie du WAF, tels que la limitation du dbit et la dtection des donnes sensibles, ainsi qu’une nouvelle couche de protection qui est actuellement en cours de dveloppement. Cette nouvelle validation analyse l’invite soumise par l’utilisateur final afin d’identifier les tentatives d’exploitation du modle pour extraire des donnes et d’autres tentatives d’abus. Tirant parti de la taille du rseau Cloudflare, Firewall for AI fonctionne au plus prs de l’utilisateur, permettant ainsi d’identifier rapidement les attaques et de protger la fois l’utilisateur final et les modles contre les abus et les attaques.

Avant de se pencher sur le fonctionnement de Firewall for AI et sur l’ensemble de ses fonctionnalits, examinons d’abord ce qui rend les LLM uniques et les surfaces d’attaque qu’ils introduisent. Le Top 10 de l’OWASP pour les LLM sera utilis comme rfrence.

Pourquoi les LLM sont-ils diffrents des applications traditionnelles ?

Lorsque l’on considre les LLM comme des applications connectes Internet, il existe deux diffrences principales par rapport aux applications web plus traditionnelles.

Premirement, la manire dont les utilisateurs interagissent avec le produit. Les applications traditionnelles sont dterministes par nature. Pensez une application bancaire – elle est dfinie par un ensemble d’oprations (vrifier mon solde, effectuer un virement, etc.). La scurit des oprations commerciales (et des donnes) peut tre obtenue en contrlant l’ensemble des oprations acceptes par ces points de terminaison : « GET /balance » ou « POST /transfer ».

Les oprations avec les LLM sont non dterministes par conception. Pour commencer, les interactions avec les LLM sont bases sur le langage naturel, ce qui rend l’identification des requtes problmatiques plus difficile que la correspondance des signatures d’attaques. En outre, moins qu’une rponse ne soit mise en cache, les LLM fournissent gnralement une rponse diffrente chaque fois, mme si la mme demande d’entre est rpte. Il est donc beaucoup plus difficile de limiter la faon dont l’utilisateur interagit avec l’application. Cela reprsente galement une menace pour l’utilisateur, qui risque d’tre expos des informations errones qui affaiblissent sa confiance dans le modle.

Deuximement, la faon dont le plan de contrle de l’application interagit avec les donnes constitue une grande diffrence. Dans les applications traditionnelles, le plan de contrle (code) est bien spar du plan de donnes (base de donnes). Les oprations dfinies sont le seul moyen d’interagir avec les donnes sous-jacentes (par exemple, montrez-moi l’historique de mes transactions de paiement). Cela permet aux praticiens de la scurit de se concentrer sur l’ajout de contrles et de garde-fous au plan de contrle et de protger ainsi indirectement la base de donnes.

Les LLM sont diffrents en ce sens que les donnes d’apprentissage deviennent partie intgrante du modle lui-mme par le biais du processus d’apprentissage, ce qui rend extrmement difficile le contrle de la manire dont ces donnes sont partages la suite d’une demande de l’utilisateur. Certaines solutions architecturales sont l’tude, comme la sparation des LLM en diffrents niveaux et la sparation des donnes. Cependant, aucune solution miracle n’a encore t trouve.

Du point de vue de la scurit, ces diffrences permettent aux attaquants de concevoir de nouveaux vecteurs d’attaque qui peuvent cibler les LLM et passer sous le radar des outils de scurit existants conus pour les applications web traditionnelles.

Vulnrabilits LLM de l’OWASP

La fondation OWASP a publi une liste des 10 principales classes de vulnrabilits pour les LLM, fournissant un cadre utile pour rflchir la manire de scuriser les modles de langage. Certaines menaces rappellent le top 10 de l’OWASP pour les applications web, tandis que d’autres sont spcifiques aux modles de langage.

Comme pour les applications web, certaines de ces vulnrabilits peuvent tre traites au mieux lors de la conception, du dveloppement et de la formation de l’application LLM. Par exemple, l’empoisonnement des donnes d’apprentissage peut tre ralis en introduisant des vulnrabilits dans l’ensemble des donnes d’apprentissage utilises pour former de nouveaux modles. Les informations empoisonnes sont ensuite prsentes l’utilisateur lorsque le modle est oprationnel. Les vulnrabilits de la chane d’approvisionnement et la conception de plugins non scuriss sont des vulnrabilits introduites dans les composants ajouts au modle, comme les progiciels tiers. Enfin, la gestion des autorisations et des permissions est cruciale lorsqu’il s’agit de traiter les cas d’Excessive Agency, o des modles non contraints peuvent effectuer des actions non autorises au sein d’une application ou d’une infrastructure plus large.

Inversement, l’injection d’invites, le dni de service du modle et la divulgation d’informations sensibles peuvent tre attnus par l’adoption d’une solution de scurit proxy telle que Cloudflare Firewall for AI. Dans les sections suivantes, plus de dtails seront donns sur ces vulnrabilits et sur la faon dont Cloudflare est positionn de manire optimale pour les attnuer.

Dploiements de LLM

Les risques lis aux modles linguistiques dpendent galement du modle de dploiement. Actuellement, trois approches principales de dploiement sont observes : les LLM internes, publics et de produits. Dans ces trois scnarios, vous devez protger les modles contre les abus, protger les donnes propritaires stockes dans le modle et protger l’utilisateur final contre les informations errones ou l’exposition un contenu inappropri.

LLM internes : Les entreprises dveloppent des LLM pour aider leurs employs dans leurs tches quotidiennes. Ils sont considrs comme des actifs de l’entreprise et ne doivent pas tre accessibles aux non-employs. Il peut s’agir, par exemple, d’un copilote IA form aux donnes de vente et aux interactions avec les clients, utilis pour gnrer des propositions personnalises, ou d’un LLM form une base de connaissances interne qui peut tre interroge par les ingnieurs.

LLM publics : Il s’agit de LLM accessibles en dehors des frontires d’une entreprise. Ces solutions ont souvent des versions gratuites que tout le monde peut utiliser et elles sont souvent formes sur des connaissances gnrales ou publiques. Parmi les exemples, citons GPT d’OpenAI ou Claude d’Anthropic.

LLM de produit : du point de vue de l’entreprise, les LLM peuvent faire partie d’un produit ou d’un service offert ses clients. Il s’agit gnralement de solutions personnalises auto-hberges qui peuvent tre mises disposition en tant qu’outil d’interaction avec les ressources de l’entreprise. Parmi les exemples, citons les chatbots de support client ou l’assistant AI de Cloudflare.

Du point de vue du risque, la diffrence entre les LLM de produit et les LLM publics consiste dterminer qui subit l’impact des attaques russies. Les LLM publics sont considrs comme une menace pour les donnes car les donnes qui aboutissent dans le modle peuvent tre consultes par pratiquement n’importe qui. C’est l’une des raisons pour lesquelles de nombreuses entreprises conseillent leurs employs de ne pas utiliser d’informations confidentielles dans les invites de services accessibles au public. Les LLM de produit peuvent tre considrs comme une menace pour les entreprises et leur proprit intellectuelle si les modles ont eu accs des informations exclusives pendant la formation (par conception ou par accident).

Firewall for AI

Cloudflare Firewall for AI sera dploy comme un WAF traditionnel, o chaque requte API avec une invite LLM est analyse pour rechercher des motifs et des signatures d’attaques possibles.

Firewall for AI peut tre dploy devant des modles hbergs sur la plateforme Cloudflare Workers AI ou des modles hbergs sur toute autre infrastructure tierce. Il peut galement tre utilis avec Cloudflare AI Gateway, et les clients pourront contrler et configurer Firewall for AI en utilisant le plan de contrle WAF.

Prvenir les attaques volumtriques

L’une des menaces rpertories par l’OWASP est le dni de service des modles. Comme pour les applications traditionnelles, une attaque par dni de service est mene en consommant une quantit exceptionnellement leve de ressources, ce qui entrane une rduction de la qualit du service ou une augmentation potentielle des cots d’exploitation du modle. tant donn la quantit de ressources dont les LLM ont besoin pour fonctionner et l’imprvisibilit des entres des utilisateurs, ce type d’attaque peut tre prjudiciable.

Ce risque peut tre attnu en adoptant des politiques de limitation de taux qui contrlent le taux de requtes provenant de sessions individuelles, limitant ainsi la fentre contextuelle. En faisant passer votre modle par Cloudflare ds aujourd’hui, vous bnficiez d’une protection contre les attaques DDoS. Vous pouvez galement utiliser la limitation de taux et la limitation de taux avance pour grer le taux de requtes autorises atteindre votre modle en dfinissant un taux maximum de requtes effectues par une adresse IP ou une cl API individuelle au cours d’une session.

Identifier les informations sensibles avec la dtection des donnes sensibles

Il existe deux cas d’utilisation des donnes sensibles, selon que vous tes propritaire du modle et des donnes ou que vous souhaitez empcher les utilisateurs d’envoyer des donnes dans des LLM publics.

Selon la dfinition de l’OWASP, la divulgation d’informations sensibles se produit lorsque les LLM rvlent par inadvertance des donnes confidentielles dans les rponses, ce qui entrane un accs non autoris aux donnes, des violations de la vie prive et des failles de scurit. Une faon d’viter cela est d’ajouter des validations strictes de l’invite. Une autre approche consiste identifier le moment o les informations personnelles identifiables (PII) quittent le modle. C’est le cas, par exemple, lorsqu’un modle a t form l’aide d’une base de connaissances de l’entreprise qui peut contenir des informations sensibles, telles que des PII (comme le numro de scurit sociale), des codes propritaires ou des algorithmes.

Les clients qui utilisent des modles LLM derrire Cloudflare WAF peuvent utiliser l’ensemble de rgles gres SDD (Sensitive Data Detection) WAF pour identifier certaines PII renvoyes par le modle dans la rponse. Les clients peuvent consulter les correspondances SDD sur les vnements de scurit du WAF. Aujourd’hui, SDD est propos sous la forme d’un ensemble de rgles gres conues pour rechercher des informations financires (telles que les numros de carte de crdit) ainsi que des secrets (cls API). Dans le cadre de la feuille de route, Cloudflare prvoit de permettre ses clients de crer leurs propres empreintes digitales personnalises.

L’autre cas d’utilisation vise empcher les utilisateurs de partager des PII ou d’autres informations sensibles avec des fournisseurs LLM externes, tels que OpenAI ou Anthropic. Pour se protger contre ce scnario, Cloudflare prvoit d’tendre le SDD afin d’analyser l’invite et d’intgrer sa sortie AI Gateway o, en plus de l’historique de l’invite, certaines donnes sensibles seront dtectes si elles ont t incluses dans la requte. Cloudflare commencera par utiliser les rgles SDD existantes, et prvoit d’autoriser les clients rdiger leurs propres signatures personnalises. Dans le mme ordre d’ides, l’obscurcissement est une autre fonction dont les clients voquent souvent l’importance. Une fois disponible, le SDD tendu permettra aux clients d’obscurcir certaines donnes sensibles dans une invite avant qu’elles n’atteignent le modle. Le SDD sur la phase de requte est en cours de dveloppement.

Prvenir les abus de modles

L’abus de modle est une catgorie plus large d’abus. Elle comprend des approches telles que l' »injection d’invite » ou la soumission de requtes qui gnrent des hallucinations ou conduisent des rponses inexactes, offensantes, inappropries ou simplement hors sujet.

L’injection d’invites est une tentative de manipulation d’un modle linguistique par le biais d’entres spcialement conues, provoquant des rponses involontaires de la part du LLM. Les rsultats d’une injection peuvent varier, allant de l’extraction d’informations sensibles l’influence sur la prise de dcision en imitant les interactions normales avec le modle. Un exemple classique d’injection d’invite est la manipulation d’un CV pour influencer les rsultats des outils de slection de CV.

Un cas d’utilisation courant voqu par les clients de AI Gateway est qu’ils souhaitent viter que leur application ne gnre un langage toxique, offensant ou problmatique. Les risques de ne pas contrler le rsultat du modle comprennent l’atteinte la rputation et le prjudice caus l’utilisateur final en fournissant une rponse non fiable.

Ces types d’abus peuvent tre grs en ajoutant une couche de protection supplmentaire devant le modle. Cette couche peut tre entrane bloquer les tentatives d’injection ou bloquer les invites qui tombent dans des catgories inappropries.

Validation de l’invite et de la rponse

Firewall for AI lancera une srie de dtections conues pour identifier les tentatives d’injection d’invites et d’autres abus, en s’assurant par exemple que le sujet reste dans les limites dfinies par le propritaire du modle. Comme d’autres fonctions WAF existantes, Firewall for AI recherchera automatiquement les invites intgres dans les requtes HTTP ou permettra aux clients de crer des rgles bases sur l’endroit du corps JSON de la requte o l’invite peut tre trouve.

Une fois activ, le pare-feu analysera chaque invite et fournira un score bas sur la probabilit qu’elle soit malveillante. Il marque galement l’invite en fonction de catgories prdfinies. La note va de 1 99, ce qui indique la probabilit d’une injection d’invite, la note 1 tant la plus probable.

Les clients pourront crer des rgles WAF pour bloquer ou traiter les requtes ayant un score particulier dans l’une ou l’autre de ces dimensions, ou dans les deux. Vous pourrez combiner ce score avec d’autres signaux existants (comme le score de bot ou le score d’attaque) pour dterminer si la demande doit atteindre le modle ou tre bloque. Par exemple, il peut tre combin avec un score de bot pour identifier si la demande est malveillante et gnre par une source automatise.

Outre le score, le systme attribuera chaque invite des balises qui pourront tre utilises lors de la cration de rgles visant empcher les invites appartenant l’une de ces catgories d’atteindre leur modle. Par exemple, les clients pourront crer des rgles pour bloquer des sujets spcifiques. Cela inclut les invites utilisant des mots classs comme offensants ou lis la religion, au contenu sexuel ou la politique, par exemple.

Comment utiliser Firewall for AI ? Qui peut en bnficier ?

Les entreprises clientes de l’offre Application Security Advanced peuvent immdiatement commencer utiliser Advanced Rate Limiting et Sensitive Data Detection (sur la phase de rponse). Ces deux produits se trouvent dans la section WAF du tableau de bord de Cloudflare. La fonction de validation rapide de Firewall for AI est actuellement en cours de dveloppement et une version bta sera mise la disposition de tous les utilisateurs de Workers AI dans les mois venir.

Conclusion

Cloudflare est l’un des premiers fournisseurs de scurit lancer un ensemble d’outils pour scuriser les applications d’IA. Grce Firewall for AI, les clients peuvent contrler les invites et les demandes qui parviennent leurs modles de langage, rduisant ainsi le risque d’abus et d’exfiltration de donnes.

Source : « Cloudflare announces Firewall for AI » (Cloudflare)

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous de cette initiative de Cloudflare, trouvez-vous qu’elle est crdible ou pertinente ?

Selon vous, quelles mesures de scurit supplmentaires peuvent tre mises en place pour protger les LLM contre les abus, tout en assurant la confidentialit des donnes et la fiabilit des rponses fournies par les modles ?

Voir aussi :

Les systmes d’IA font face des menaces croissantes : le NIST a identifi les diffrents types de cyberattaques qui manipulent le comportement des systmes d’IA

Cloudflare veut remplacer les CAPTCHA par Turnstile qui se passe des images de passages pitons, des cases cocher et de Google, Turnstile serait plus respectueux de la vie prive que les CAPTCHA

Cloudflare affirme avoir russi attnuer une attaque DDoS de 26 millions de requtes par seconde, l’assaut aurait t lanc par un botnet d’environ 5 000 appareils



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.