Meta explique les raisons de la grosse panne d’hier

Facebook Meta Bug


La panne exceptionnelle des plateformes de Meta a empêché des millions d’utilisateurs de Facebook, d’Instagram et de Messenger d’accéder à leurs réseaux sociaux et à leur messagerie pendant plus de deux heures hier. L’entreprise a donné une explication technique.

Les pannes sur Facebook peuvent arriver, mais celle qu’a subie Meta hier est exceptionnelle par son ampleur et sa durée : pendant deux heures et demi, les utilisateurs du monde entier n’ont pas pu accéder au réseau social, ainsi qu’à Instagram et à Messenger. Il s’agit tout simplement de la panne la plus importante pour le groupe depuis quatre ans. Que s’est-il passé ?

Lire Instagram, Facebook, Threads : les plates-formes de Meta de retour après une grosse panne

Meta a donné de plus amples détails sur la nature de cette défaillance, causée par un problème de gestion d’une erreur par un système automatisé au sein de l’infrastructure du groupe. Techniquement parlant, le cœur du bug réside dans le traitement automatisé des valeurs de configuration. Ce système est conçu pour identifier et corriger les valeurs de configuration invalides dans le cache, en les remplaçant par des valeurs à jour provenant d’un stockage persistant.

Mais lorsqu’une modification apportée à une valeur de configuration persistante a été interprétée comme invalide, tous les clients ont tenté de corriger cette valeur en même temps. Cette correction implique une requête vers un cluster de bases de données, qui a rapidement été submergé par des centaines de milliers de requêtes par seconde. Un peu comme une attaque par déni de service (DDoS), sauf que la panne d’hier n’est pas le résultat d’acteurs malveillants…

Le problème s’est encore aggravé quand le système a interprété chaque erreur comme une valeur de configuration invalide, supprimant ainsi les clés de cache correspondantes. La situation a entraîné la poursuite des requêtes même après la résolution du problème initial, créant de la sorte une boucle de rétroaction empêchant les bases de données de se rétablir.

Pour casser ce cycle infernal, il a fallu couper tout le trafic vers le cluster de bases de données concerné, autrement dit la désactivation temporaire du site. Son accès a été rétabli progressivement par la suite. Pour éviter que de tels incidents se reproduisent, Meta a désactivé le système de correction des valeurs de configuration et évalue de nouveaux mécanismes pour ce système.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.

Source :

Meta



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.