CrowdStrike a publi son analyse des causes racines (RCA) de la mise jour logicielle dfectueuse qui a entran une panne mondiale, potentiellement la plus importante de l’histoire, en juillet. Selon les experts, CrowdStrike doit se sentir « trs embarrass » aprs avoir publi son analyse car il s’agit d’une erreur que les tudiants en programmation de premire anne apprennent viter.
Le 19 juillet 2024, une panne informatique mondiale a touch des entreprises, des aroports et des mdias travers le monde. Microsoft a confirm qu’elle tait consciente de ces problmes, mais de nombreux experts en cyberscurit ont indiqu que la source potentielle du problme tait l’entreprise de cyberscurit CrowdStrike, qui fournit une surveillance et une protection contre les cyberattaques de nombreuses entreprises de premier plan. Les crans bleus de la mort ont perturb le fonctionnement normal des machines Windows, affichant le message : Recovery: It looks like Windows didnt load correctly.
Le 19 juillet, jour de l’cran bleu de la mort (BSOD), environ 8,5 millions de systmes Windows dans le monde se sont retrouvs en panne la suite d’une mise jour du capteur Falcon de CrowdStrike qui s’est mal droule. L’entreprise amricaine de cyberscurit a publi un rapport prliminaire quelques jours aprs l’incident. Aujourd’hui, une analyse plus approfondie de 12 pages confirme l’origine du problme : un seul capteur non dtect.
L’accs privilgi de Falcon
CrowdStrike propose des produits de scurit contre les ransomwares, les malwares et l’internet presque exclusivement aux entreprises et aux grandes organisations. La panne gnralise a t lie son logiciel de dtection Falcon, qui est install pour dtecter les menaces et aider les bloquer.
Sigi Goode, professeur de systmes d’information l’Australian National University, a dclar que Falcon disposait d’un accs trs privilgi. Il se situe au niveau de ce que l’on appelle le noyau de Windows.
Il est aussi proche que possible du moteur qui alimente le systme d’exploitation , a dclar le professeur Goode. Le mode kernel observe en permanence ce que vous faites et coute les requtes des applications que vous utilisez, et les traite de manire transparente.
Il a dcrit le mode kernel comme la police de la circulation ct de laquelle Falcon est assis, en disant : Je n’aime pas l’aspect de ce vhicule, nous devrions y jeter un coup d’il .
Le capteur 21 coupable
CrowdStrike met constamment Falcon jour. Le 19 juillet, l’entreprise a envoy une mise jour Rapid Response Content certains htes Windows.
Dans le RCA, CrowdStrike a parl d’un incident du canal 291 , au cours duquel une nouvelle capacit a t introduite dans les capteurs de Falcon.
Les capteurs sont comme une voie d’accs aux preuves , qui indique le type d’activit suspecte rechercher, a dclar le professeur Goode. Falcon examine une srie de capteurs – une srie d’indicateurs – pour voir si quelque chose ne va pas.
Lorsque des mises jour sont envoyes, il modifie l’emplacement ou le nombre de capteurs pour vrifier s’il y a une attaque potentielle.
Dans le cas prsent, Falcon s’attendait ce que la mise jour comporte 20 champs de saisie, mais elle en comportait 21. Selon CrowdStrike, c’est cette « discordance de comptage » qui a provoqu la panne gnrale. L’interprteur de contenu ne s’attendait qu’ 20 valeurs , indique le rapport RCA. Par consquent, la tentative d’accs la 21e valeur a produit une lecture de la mmoire hors limites au-del de la fin du tableau de donnes d’entre et a entran un plantage du systme.
Falcon tant troitement intgr au cur de Windows, sa dfaillance a entran l’arrt de l’ensemble du systme et la survenue d’une panne de systme (BSOD).
Le professeur Goode a dclar que l’une des faons les plus courantes de compromettre un systme consistait inonder la mmoire. Il s’agit essentiellement de dire l’ordinateur de chercher quelque chose « hors limites ».
Il cherchait quelque chose qui n’existait pas , a-t-il dclar. Mais Falcon devait chercher ce 21e emplacement, parce que c’est ce que lui demandait le nouveau template qu’on lui avait donn .
Les principales conclusions du rapport d’analyse des causes racines de CrowdStrike sont prsentes ci-dessous :
Ce rapport dveloppe les informations prcdemment partages dans notre analyse prliminaire de l’aprs-incident, en approfondissant les conclusions, les mesures d’attnuation, les dtails techniques et l’analyse des causes racines de l’incident. Le 29 juillet 17 heures, en comparant les semaines, ~99 % des capteurs Windows sont en ligne par rapport la priode prcdant la mise jour du contenu. Nous observons gnralement une variation de ~1 % d’une semaine l’autre dans les connexions des capteurs.
Tout au long de cette RCA, nous avons utilis une terminologie gnralise pour dcrire la plateforme CrowdStrike Falcon afin d’amliorer la lisibilit. La terminologie utilise dans d’autres documents peut tre plus spcifique et technique.
Ce qui s’est pass
Le capteur Falcon de CrowdStrike offre de puissants modles d’IA et d’apprentissage automatique au niveau du capteur afin de protger les systmes des clients en identifiant les dernires menaces avances et en y remdiant. Ces modles sont maintenus jour et renforcs par les enseignements tirs de la dernire tlmtrie des menaces provenant du capteur et de l’intelligence humaine de Falcon Adversary OverWatch, Falcon Complete et des ingnieurs de CrowdStrike chargs de la dtection des menaces. Ce riche ensemble de tlmtrie de scurit commence par des donnes filtres et agrges sur chaque capteur dans un magasin de graphes local.
Chaque capteur met en corrlation le contexte de son magasin de graphes local avec l’activit du systme live pour obtenir des comportements et des indicateurs d’attaque (IOA) dans le cadre d’un processus d’affinement continu. Ce processus d’affinage comprend un Sensor Detection Engine qui combine le Sensor Content intgr avec le Rapid Response Content fourni par le cloud. Le Rapid Response Content est utilis pour recueillir des donnes tlmtriques, identifier les indicateurs de comportement de l’adversaire et renforcer les nouvelles dtections et prventions sur le capteur sans qu’il soit ncessaire de modifier le code du capteur. Le Rapid Response Content est une heuristique comportementale, spare et distincte des capacits sur capteur de prvention par IA et de dtection de CrowdStrike.
Le Rapid Response Content est fourni par le biais de fichiers de canaux et interprt par le Content Interpreter du capteur, l’aide d’un moteur bas sur des expressions rgulires (regex). Chaque fichier de canal du Rapid Response Content est associ un Template Type spcifique intgr dans la version d’un capteur. Le Template Type fournit au Content Interpreter des donnes d’activit et un contexte graphique mettre en relation avec le Rapid Response Content.
Avec la sortie de la version 7.11 du capteur en fvrier 2024, CrowdStrike a introduit un nouveau Template Type pour permettre la visibilit et la dtection de nouvelles techniques d’attaque qui abusent des pipelines nomms et d’autres mcanismes de communication interprocessus ( » IPC « ) de Windows. Comme indiqu dans le PIR, le nouveau Template Type IPC a t dvelopp et test conformment nos processus standard de dveloppement du Sensor Content et a t intgr au capteur pour prparer son utilisation sur le terrain. Les Template Instances IPC sont livres en tant que Rapid Response Content aux capteurs par l’intermdiaire d’un Channel File correspondant, numrot 291.
Le nouveau Template Type IPC dfinissait 21 champs de paramtres d’entre, mais le code d’intgration qui invoquait le Content Interpreter avec les Template Instances du Channel File 291 ne fournissait que 20 valeurs d’entre comparer. Cette inadquation du nombre de paramtres a chapp plusieurs niveaux de validation et de test de construction, car elle n’a pas t dcouverte au cours du processus de test de validation du capteur, des tests de stress du Template Type ( l’aide d’une Template Instance de test) ou des premiers dploiements russis des Template Instances IPC sur le terrain. Cela s’explique en partie par l’utilisation de critres de correspondance base de caractres gnriques pour la 21e entre pendant les tests et dans les premires Template Instances IPC.
Le 19 juillet 2024, deux autres Template Instances IPC ont t dployes. L’une d’entre elles a introduit un critre de correspondance sans caractre gnrique pour le 21e paramtre d’entre. Ces nouvelles Template Instances ont donn lieu une nouvelle version du Channel File 291 qui exigerait dsormais que le capteur inspecte le 21e paramtre d’entre. Jusqu’ ce que ce fichier de canal soit livr aux capteurs, aucune Template Instances IPC dans les versions prcdentes du canal n’avait utilis le champ du 21me paramtre d’entre. Le Content Validator a valu les nouvelles Template Instances, mais a bas son valuation sur le fait que le Template Type IPC serait fourni avec 21 entres.
Les capteurs qui ont reu la nouvelle version du Channel File 291 contenant le contenu problmatique ont t exposs un problme latent de lecture hors limites dans le Content Interpreter. Lors de la prochaine notification IPC du systme d’exploitation, les nouvelles Template Instances IPC ont t values, en spcifiant une comparaison avec la 21e valeur d’entre. Le Content Interpreter ne s’attendait qu’ 20 valeurs. Par consquent, la tentative d’accs la 21e valeur a entran une lecture hors limites de la mmoire, au-del de la fin du tableau de donnes d’entre, ce qui a provoqu une panne du systme.
En rsum, c’est la confluence de ces problmes qui a entran une panne du systme : la non-concordance entre les 21 entres valides par le Content Validator et les 20 entres fournies au Content Interpreter, le problme latent de lecture hors limites dans le Content Interpreter et l’absence de test spcifique pour les critres de correspondance autres que les caractres gnriques dans le 21e champ. Bien que ce scnario avec le Channel File 291 ne puisse plus se reproduire, il informe galement des amliorations de processus et des mesures d’attnuation que CrowdStrike est en train de dployer pour garantir une rsilience encore plus grande.
Source : « External Technical Root Cause Analysis Channel File 291 » (CrowdStrike)
Et vous ?
Quel est votre avis sur le sujet ?
Trouvez-vous les conclusions de cette analyse technique de CrowdStrike crdibles ou pertinentes ?
Voir aussi :