Google Cloud explique comment il a accidentellement supprimé un compte client : UniSuper, un fonds de pension australien de 135 milliards de dollars, a subi deux semaines dinterruption à cause dun bug chez Google Cloud. Cette suppression a eu des conséquences dramatiques, entraînant deux semaines dinterruption pour les 647 000 membres dUniSuper.
Plus tôt ce mois-ci, le PDG d’UniSuper, Peter Chun, a écrit aux membres du fonds, expliquant que la panne n’était pas le résultat d’une cyberattaque et qu’aucune donnée personnelle n’avait été exposée à la suite de la panne. Il a désigné le service cloud de Google comme étant à l’origine de la panne. Dans une déclaration commune conjointe avec le directeur général de Google Cloud, Thomas Kurian, les deux hommes se sont excusés auprès des membres pour la panne et ont déclaré qu’elle avait été « extrêmement frustrante et décevante ».
Ils ont déclaré que la panne avait été causée par une mauvaise configuration qui a entraîné la suppression du compte cloud d’UniSuper, ce qui n’était jamais arrivé à Google Cloud auparavant : « la perturbation est survenue à la suite d’une séquence d’événements sans précédent où une mauvaise configuration par inadvertance pendant le provisionnement des services de Cloud privé d’UniSuper a finalement entraîné la suppression de l’abonnement de Cloud privé d’UniSuper ».
Quelques semaines plus tard, l’examen interne du problème par Google Cloud a pris fin et l’entreprise a publié un billet de blog détaillant ce qui s’est passé :
« Lors du déploiement initial d’un cloud privé Google Cloud VMware Engine (GCVE) pour le client à l’aide d’un outil interne, les opérateurs de Google ont mal configuré le service GCVE par inadvertance en laissant un paramètre vide. Cette erreur a eu pour conséquence involontaire et inconnue à l’époque de faire passer par défaut le cloud privé GCVE du client à une durée fixe, avec suppression automatique à la fin de cette période. Le déclencheur de l’incident et le comportement du système en aval ont tous deux été corrigés afin d’éviter que cela ne se reproduise.
« Cet incident n’a pas eu d’incidence sur d’autres services Google Cloud que le cloud privé GCVE de ce client. Les autres clients n’ont pas été affectés par cet incident ».
Il faut également noter d’autres éléments :
Suppression soudaine et irréversible
Le plus choquant dans cette erreur de Google a été la suppression soudaine et irréversible du compte client. On pourrait sattendre à des protections, des notifications et des confirmations pour éviter toute suppression accidentelle. Google affirme quelles existent, mais ces avertissements sont destinés à une « suppression initiée par le client » et nont pas fonctionné lors de lutilisation de loutil dadministration. Aucune notification na été envoyée au client, car la suppression a été déclenchée par un paramètre laissé vide par les opérateurs de Google, et non par une demande de suppression du client.
Récupération difficile
Pendant les nombreuses mises à jour de la période dinterruption, UniSuper a indiqué quil navait pas accès aux sauvegardes de Google Cloud et a dû se tourner vers un stockage tiers (probablement moins à jour) pour reprendre ses activités. UniSuper a déclaré qu’il avait mis en place une duplication dans deux zones géographiques pour se protéger contre les pannes et les pertes, mais la suppression de labonnement au GCVE Private Cloud dUniSuper a entraîné la suppression dans les deux zones géographiques.
« La restauration de l’instance de Cloud privé d’UniSuper a nécessité une quantité incroyable de concentration, d’efforts et de partenariat entre nos équipes pour permettre une restauration complète de tous les systèmes centraux. Le dévouement et la collaboration entre UniSuper et Google Cloud ont permis une restauration complète de notre Cloud privé qui comprend des centaines de machines virtuelles, de bases de données et d’applications. UniSuper avait mis en place des sauvegardes avec un autre fournisseur de services. Ces sauvegardes ont permis de minimiser la perte de données et d’améliorer de manière significative la capacité d’UniSuper et de Google Cloud à mener à bien la restauration ».
Pourtant, dans son rapport d’incident, Google déclare : « les sauvegardes de données stockées dans Google Cloud Storage dans la même région n’ont pas été affectées par la suppression et, avec les logiciels de sauvegarde tiers, ont contribué à une restauration rapide ». Il est difficile de concilier ces deux affirmations, notamment en ce qui concerne la période de restauration de deux semaines. L’objectif d’une sauvegarde est d’être rapidement restaurée ; donc soit les sauvegardes d’UniSuper n’ont pas été supprimées et n’ont pas été efficaces, ce qui a entraîné deux semaines d’indisponibilité, soit elles auraient été efficaces si elles n’avaient pas été partiellement ou complètement effacées.
Google a souligné à plusieurs reprises dans son message que ce problème n’affectait qu’un seul client, qu’il ne s’était jamais produit auparavant, qu’il ne devrait jamais se reproduire et qu’il ne s’agissait pas d’un problème systémique lié à Google Cloud. Voici l’intégralité de la section « remédiation » du billet de blog :
Des signalements des utilisateurs de Google Drive évoquant des fichiers qui disparaissent
Cette situation chez UniSuper fait suite à des signalements des utilisateurs de Google Drive selon lesquels des fichiers disparaissent de façon subite du service. Certains internautes, sur les forums d’assistance du géant technologique, ont affirmé que six mois de travail, voire plus, ont disparu sans crier gare au cours du mois de novembre de lannée précédente.
« Mes fichiers Google Drive ont disparu de façon soudaine. Les données de mai à aujourd’hui ont disparu, et la structure des dossiers est revenue à l’état du mois de mai de lannée en cours. L’activité de Google Drive ne montre aucun changement. Seule l’activité du mois de mai est visible. Aucun fichier n’a été supprimé de façon manuelle, donc aucun fichier dans la corbeille. Je n’ai jamais synchronisé ou partagé mes fichiers et mon disque avec qui que ce soit. Jen fais un usage local. J’ai suivi la procédure de récupération indiquée par l’équipe d’assistance de Google (équipe de Corée du Sud). Ils m’ont demandé de sauvegarder et de restaurer le dossier DriveFS, mais rien n’a changé. J’ai remonté la situation à l’équipe d’assistance de Google, probablement aux États-Unis, et ils m’ont demandé de signaler le problème à leur ingénieur. Mais l’ingénieur n’a pas répondu et je ne peux pas savoir s’il est en train d’examiner mon problème. J’ai utilisé le disque il y a quelques jours et ce problème horrible s’est produit le matin dernier. J’ai besoin d’aide pour le résoudre », se plaignait un utilisateur du service en ligne quoffre le géant technologique.
Il peut même arriver que Google décide de mettre en place de façon inattendue une limite de fichiers, ce qui a pour conséquence dempêcher les utilisateurs de son service de stockage dans le nuage de créer de nouveaux fichiers. Cest ce qui sest vu au début du deuxième trimestre de lannée en cours. Google a discrètement plafonné le nombre de fichiers quil est possible de créer et stocker dans Google Drive.
Résultat : perte de contrôle des utilisateurs sur ce qui est en principe leur espace de stockage attribué par lentreprise. Ce changement aurait été mis en place depuis le mois de février de lannée en cours, et ce, sans communication explicative de lentreprise. Cest à la dure que les utilisateurs lont découvert. Ces situations ravivent le débat sur les avantages et les inconvénients du cloud computing.
Conclusion
Cette erreur de Google Cloud souligne limportance de la vigilance lors de la configuration des services cloud et la nécessité de mettre en place des mécanismes de protection robustes pour éviter de telles catastrophes. Espérons que des leçons ont été tirées et que des mesures ont été prises pour éviter que cela ne se reproduise à lavenir.
Sources : Google, déclaration conjointe
Et vous ?
Quelles précautions les entreprises devraient-elles prendre pour éviter de telles erreurs dans le cloud ?
Comment les fournisseurs de services cloud peuvent-ils améliorer leurs processus pour minimiser les risques de suppression accidentelle ?
Quelles sont les conséquences potentielles pour les clients lorsque leurs données sont supprimées par inadvertance ?