DeepSeek est très facile à jailbreaker, mais il y a pire

DeepSeek est très facile à jailbreaker, mais il y a pire


Au milieu de l’exaltation et de la controverse sur ce que ses performances signifient pour l’IA, la startup chinoise DeepSeek continue de susciter des inquiétudes en matière de sécurité.

Jeudi dernier, Unit 42, une équipe de recherche en cybersécurité de Palo Alto Networks, a publié des résultats sur trois méthodes de jailbreak employées contre plusieurs modèles de DeepSeek. Selon le rapport, ces efforts « ont permis d’atteindre des taux de contournement significatifs, avec peu ou pas de connaissances spécialisées ou d’expertise nécessaires ».

« Les résultats de nos recherches montrent que ces méthodes de jailbreak peuvent donner des indications pour des activités malveillantes », indique le rapport. « Ces activités comprennent la création de keylogger, l’exfiltration de données et même des instructions pour créer des dispositifs incendiaires. »

Des trous dans la raquette de DeepSeek

Les chercheurs ont pu demander à DeepSeek des conseils sur la manière de voler et de transférer des données sensibles, de contourner la sécurité, de rédiger des courriels de spear-phishing « très convaincants », de mener des attaques d’ingénierie sociale « sophistiquées » et de fabriquer un cocktail Molotov. Ils ont également pu manipuler les modèles pour créer des logiciels malveillants.

Cisco

« Des informations sur la création de cocktails Molotov et de keylogger sont facilement accessibles en ligne. Mais les LLM dont les restrictions de sécurité sont insuffisantes pourraient abaisser la barrière à l’entrée pour les hackers en compilant et en présentant des résultats facilement utilisables et exploitables », ajoute l’article.

Vendredi, l’éditeur de solutions de sécurité Wallarm a publié son propre rapport sur le jailbreaking de DeepSeek, affirmant avoir franchi une étape supplémentaire faisant en sorte que DeepSeek génère du contenu nuisible. Après avoir testé les versions V3 et R1, le rapport affirme avoir révélé le prompt système de DeepSeek, c’est-à-dire les instructions sous-jacentes qui définissent le comportement d’un modèle, ainsi que ses limites.

Quand OpenAI se fâche

Les résultats révèlent « des vulnérabilités de sécurité du modèle », indique Wallarm.

OpenAI a par ailleurs accusé DeepSeek d’utiliser ses modèles, qui sont propriétaires, pour former V3 et R1. Dans son rapport, Wallarm affirme avoir incité DeepSeek à faire référence à OpenAI, ce qui – selon la société – indique que « la technologie d’OpenAI pourrait avoir joué un rôle dans la formation de la base de connaissances de DeepSeek ».

deepseek-img-2

Les chats de Wallarm avec DeepSeek, qui mentionnent OpenAI. Wallarm

« Dans le cas de DeepSeek, l’une des découvertes les plus intrigantes est la possibilité d’extraire des détails sur les modèles utilisés pour l’entraînement. Normalement, ces informations internes sont protégées, ce qui empêche les utilisateurs de comprendre les ensembles de données propriétaires ou externes utilisés pour optimiser les performances », explique le rapport.

Un prompt pour dévoiler le pot aux roses

« En contournant les restrictions standard, les jailbreaks révèlent le degré de contrôle que les fournisseurs d’IA exercent sur leurs propres systèmes, révélant non seulement des vulnérabilités en matière de sécurité, mais aussi des preuves de l’influence croisée des modèles dans les pipelines d’entraînement à l’IA », poursuit le rapport.

Le prompt utilisé par Wallarm pour obtenir cette réponse est expurgée dans le rapport, « afin de ne pas compromettre d’autres modèles vulnérables », ont indiqué les chercheurs à ZDNET par courrier électronique. Cette réponse de DeepSeek ne confirme pas les soupçons de vol de propriété intellectuelle d’OpenAI.

Wallarm affirme avoir informé DeepSeek de la vulnérabilité. L’entreprise a corrigé le problème. Mais cela survient quelques jours seulement après qu’une base de données de DeepSeek ait été trouvée sur l’internet (et a ensuite été rapidement retirée, après notification). Cela dit, les chercheurs ont souvent réussi à « jailbreaker » des modèles populaires créés aux États-Unis par des géants de l’IA plus établis, notamment ChatGPT.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.