Les jetons de l’API Hugging Face exposs offrent un accs complet au lama 2 de Meta, selon Lasso Security

Les textes gnrs par l'IA pourraient accrotre l'exposition aux menaces L'identification des contenus malveillants ou abusifs deviendra plus difficile pour les fournisseurs de plateformes



Des chercheurs en scurit de Lasso Security ont dcouvert plus de 1 500 jetons d’API appartenant des gants de la technologie tels que Meta, Microsoft, Google et VMware exposs sur la plateforme open source Hugging Face. Cette exposition mettait potentiellement 723 organisations risque, dont Meta, EleutherAI et BigScience Workshop. Les chercheurs ont not que la plupart des jetons avaient des autorisations d’criture, permettant la modification de fichiers dans les rfrentiels de comptes. Bien que les entreprises concernes aient rpondu rapidement en comblant les failles, les chercheurs soulignent les graves consquences potentielles, notamment le vol de donnes, l’empoisonnement de donnes d’entranement, le vol de modles, et les attaques d’empoisonnement de donnes sont classes parmi les menaces critiques pour l’IA et l’apprentissage automatique.

Les chercheurs ont russi accder et modifier plusieurs ensembles de donnes ainsi qu’ accder plus de 10 000 modles privs, mettant en lumire la vulnrabilit des systmes de telles attaques. La fuite a t dcouverte grce des recherches manuelles de sous-chanes sur Hugging Face, et les chercheurs ont soulign la ncessit de sensibiliser la protection des jetons d’API. Les grandes entreprises ont rvoqu les jetons et supprim le code de leurs rfrentiels en rponse la dcouverte. EleutherAI, l’une des entreprises touches, a soulign sa collaboration avec Hugging Face et Stability AI pour renforcer la scurit dans la recherche sur l’apprentissage automatique en dveloppant un nouveau format de point de contrle, limitant ainsi les risques associs aux attaques de ce type.

Message HuggingFace des jetons d’API d’organisations obsoltes

Hugging Face est une plateforme que de nombreux professionnels du LLM utilisent comme source d’outils et d’autres ressources pour les projets LLM. Les principales offres de la socit comprennent Transformers, une bibliothque open source qui offre des API et des outils pour le tlchargement et le rglage de modles prforms. L’entreprise hberge – la manire de GitHub – plus de 500 000 modles d’IA et 250 000 ensembles de donnes, dont ceux de Meta, Google, Microsoft et VMware.

Elle permet aux utilisateurs de publier leurs propres modles et ensembles de donnes sur la plateforme et d’accder gratuitement ceux des autres via une API Hugging Face . L’entreprise a lev jusqu’ prsent quelque 235 millions de dollars auprs d’investisseurs tels que Google et Nvidia. Compte tenu de la large utilisation de la plateforme et de sa popularit croissante, les chercheurs de Lasso ont dcid d’examiner de plus prs le registre et ses mcanismes de scurit. Dans le cadre de cet exercice, les chercheurs ont essay, en novembre 2023, de voir s’ils pouvaient trouver des jetons d’API exposs qu’ils pourraient utiliser pour accder des ensembles de donnes et des modles sur Hugging Face.

Ils ont recherch des jetons d’API exposs sur GitHub et sur Hugging Face. Au dpart, les recherches n’ont donn qu’un nombre trs limit de rsultats, en particulier sur Hugging Face. Mais en modifiant lgrement le processus d’analyse, les chercheurs ont russi trouver un nombre relativement important de jetons exposs, explique Lanyado.

Les consquences de cette faille sont considrables, car nous avons russi obtenir un accs complet, la fois des autorisations de lecture et d’criture Meta Llama 2, BigScience Workshop et EleutherAI, toutes ces organisations possdent des modles avec des millions de tlchargements – un rsultat qui laisse l’organisation susceptible d’tre exploite par des cybercriminels , explique Bar Lanyado, chercheur en scurit chez Lasso Security.

On ne saurait trop insister sur la gravit de la situation. En contrlant une organisation qui se targue de millions de tlchargements, nous avons dsormais la capacit de manipuler les modles existants, en les transformant potentiellement en entits malveillantes. Il s’agit d’une menace grave, car l’injection de modles altrs pourrait affecter des millions d’utilisateurs qui s’appuient sur ces modles fondamentaux pour leurs applications.

Accs aux organisations de grande valeur

Nous avons donc dcid d’tudier la question, et effectivement la fonctionnalit d’criture ne fonctionnait pas, mais apparemment, mme avec de petites modifications apportes la fonction de connexion dans la bibliothque, la fonctionnalit de lecture fonctionnait toujours, et nous pouvions utiliser les jetons que nous avons trouvs pour tlcharger des modles privs avec un jeton org_api expos, par exemple Microsoft , explique Lanyado dans son blog.

Mthodologie de la recherche

Au dbut de la recherche de jetons d’API, les chercheurs ont parcouru les dpts GitHub et Hugging Face en utilisant leur fonctionnalit de recherche. Dans la recherche GitHub, ils ont utilis l’option de recherche de code par regex, mais ils ont rencontr un problme : les rsultats de ce type de recherche ne renvoyaient que les 100 premiers rsultats. Ils ont donc recherch la regex Hugging Face tokens ( la fois users et org_api tokens), ce qui leur a permis de recevoir des milliers de rsultats, mais ils nont pu en lire que 100. Pour surmonter cet obstacle, les chercheurs ont d allonger le prfixe de notre token, en forant les deux premires lettres du token afin de recevoir moins de rponses par requte et donc d’avoir accs tous les rsultats disponibles.

Un conseil et un appel l’action

Il est crucial que les organisations et les dveloppeurs comprennent que des plateformes telles que Hugging Face ne prennent pas d’initiatives actives pour scuriser les jetons d’API de leurs utilisateurs qui sont exposs.

l’attention des dveloppeurs, il est vivement recommand d’viter l’utilisation de jetons cods en dur et de suivre les meilleures pratiques. Cela permettra d’viter la ncessit de vrifier chaque livraison si des informations sensibles ou des jetons ne sont pas inadvertamment transfrs dans les dpts.

Les chercheurs de Lasso Security conseillent galement Hugging Face d’entreprendre une surveillance constante des jetons d’API exposs publiquement et de les rvoquer promptement, ou d’informer les utilisateurs et les organisations concerns des risques potentiels. Une approche similaire a t adopte par GitHub, qui rvoque automatiquement le jeton OAuth, le jeton GitHub App, ou le jeton d’accs personnel s’il est dtect dans un dpt public ou une gist publique.

Dans le contexte d’un paysage numrique en constante volution, la dtection prcoce revt une importance capitale pour prvenir les ventuels dommages lis la scurit des modles de langage (LLM). Afin de relever les dfis tels que les jetons d’API exposs, le sabotage des donnes d’entranement, les vulnrabilits dans la chane d’approvisionnement, ainsi que le vol de modles et d’ensembles de donnes, il est recommand d’appliquer la classification des jetons et de mettre en place des solutions de scurit spcifiques pour inspecter les IDE et la rvision du code, destines protger ces modles de transformation.

En abordant rapidement ces problmes, les organisations peuvent renforcer leurs dfenses et prvenir les menaces imminentes lies ces vulnrabilits de scurit. La vigilance est imprative dans le paysage de la scurit numrique, et cette recherche constitue un appel urgent l’action pour scuriser les bases du domaine des modles de langage.

La vulnrabilit des jetons d’API exposs, avec des autorisations d’criture dans la plupart des cas, souligne une ngligence potentielle de la part des dveloppeurs dans la gestion de la scurit des donnes. La possibilit de manipuler des fichiers dans les rfrentiels de comptes pourrait avoir des consquences graves, comme le vol de donnes et l’empoisonnement des donnes d’entranement, mettant en pril la confidentialit et l’intgrit des informations.

Source : Lasso Security

Et vous ?

Les rsultats des recherches de chercheurs de Lasso Security sont-ils pertinents ?

Quelles sont selon vous les leons tirer de cet incident pour les chercheurs, les dveloppeurs et les utilisateurs de lIA et de lapprentissage automatique ?

Voir aussi :

92 % des responsables informatiques estiment avoir fait les bons investissements en matire de scurit, mais la moiti d’entre eux s’inquitent encore de la scurit de leur entreprise

Okta, une entreprise de gestion des identits et des accs, confirme le vol de toutes les donnes de ses clients par des pirates et ravive le dbat sur le risque de s’appuyer sur des socits cloud

Plus de la moiti des employs de bureau ignorent les alertes et les avertissements importants en matire de cyberscurit en raison de la surcharge d’informations, selon une tude de CybSafe



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.