Compte Rendu Incident

# Datacenter FreePro 30/05/2023

Bonjour,

Suite à un jour de coupure d’Internet et de tous nos services en date du 30/05/2023, nous nous devions de venir faire un point.

Côté Data Center

Un incident de climatisation du site a eu lieu entre le 30/05/2023 à 20h42 et le 31/05/2023 à 11h15
suite à une perte de pression du réseau d’eau glacée alimentant les unités de climatisation des
salles informatiques.
Suite à une succession de trois fuites d’eau sur le réseau secondaire d’eau glacée (boucle
d’alimentation des unités de climatisation des salles informatiques) et à la perte de pression dans
la boucle d’eau glacée qui en a résulté, une montée en température importante dans les salles
informatiques du site a eu lieu.
La prise en compte des défauts et des alarmes remontées au niveau des logiciels de supervision
a été défaillante en début d’incident et a occasionné un délai dans la prise en compte de l’incident
et dans le déclenchement des opérations de remédiation. Ce sujet est au cœur des analyses sous
le pilotage direct de la Direction Générale de l’entreprise.
Les équipes d’exploitation ont été contraintes de couper progressivement l’alimentation électrique
des salles informatiques dans le but de protéger les équipements des clients, conserver l’intégrité
des infrastructures et éviter un départ de feu éventuel suite à un emballement thermique. Pendant
cette période nous avons néanmoins maintenu nos infrastructures essentielles et le backbone
réseau opérationnels.
Les équipes d’interventions présentes sur site se sont réparties sur les 3 actions correctives
suivantes :

Localisation et isolation des fuites par fermeture des vannes (2 fuites sur les circuits
d’alimentation des climatisations et 1 sur une des pompes secondaires) ;
Remplissage et remise en pression des réseaux d’eau glacée primaire et secondaire ;
Evacuation de l’eau présente en faux plancher des salles informatiques (NB : le niveau
d’eau n’a atteint aucun équipement électrique durant l’incident mais a provoqué une
augmentation de l’hygrométrie du site sans dépasser les seuils de SLA toutefois).
Le temps de remplissage et la remise en pression des boucles primaire et secondaire se sont
avérés très longs pour les raisons suivantes :
Le débit du circuit d’alimentation en eau adoucie s’est révélé insuffisant pour remplissage
d’un telle volumétrie en un temps contraint ;
En cours de remplissage, lors de l’atteinte d’un premier seuil de pression, est apparue une
nouvelle fuite au niveau d’une pompe secondaire (effet sur une bride de serrage d’une
vanne lors de la perte de pression et du re-remplissage) ;
Le temps nécessaire à la mise en œuvre de sources complémentaires d’alimentation d’eau
pour le remplissage.
3
A la fin du remplissage, lorsque la pression a été suffisante au niveau du circuit primaire, un
redémarrage par palier des installations de climatisation a pu être initié en tenant compte :
D’une part d’un démarrage séquentiel des groupes de production de froid et de leurs
compresseurs
D’autre part de l’hygrométrie par rapport à la température dans les salles informatiques
pour éviter tout point de condensation pouvant endommager les équipements
informatiques.
L’ensemble des opérations de restauration du fonctionnement des installations de climatisation a
pu être terminé à 11h15, le 31 Mai et ont permis aux équipes en charge de la distribution électrique
de réalimenter progressivement -en toute sécurité- les départs électriques coupés précédemment.
La remise sous tension des équipements informatiques a été conduite progressivement et en
coordination avec les clients suivant les contraintes d’exploitation de chacun.
Coté température, le retour sous les seuils d’alarme est intervenu à la mi-journée.
L’incident sur le volet climatisation a pu être clôturé à 14h30 le 31 mai.
Suivant les infrastructures et les clients, les fins d’incident ou d’impact sur les opérations clients
se sont étalées dans le temps et nos équipes de support restent mobilisées et renforcées sur le
week-end et les jours à venir en cas de besoin.

Côté RD medias

la coupure électrique a provoqué la casse de :

nos switches de bordure (qui gèrent le BGP)
la destruction ou la perturbation de 5 autres switches fibre

Après le remplacement de tous les switches réseau, nous avons pu commencer à vérifier l’état matériel de notre réseau, notre cloud et les serveurs physiques.

A 22h le 31 mai, nous avons attaqué le remplacement des switches BGP (tête de pont réseau), à 3h45 le 01 juin tout le réseau était de nouveau accessible.

Entre le 31 mai et le 1er juin, nous avons relancé tous les serveurs virtuels sans perte de données aucune, la réplication ayant fonctionné pour certaines VM qui avaient subi une altération lors de l’arrêt brusque de courant (principalement les serveurs Linux).

Certaines parties du réseau comportaient des dysfonctionnements, nous avons pu isoler chaque route défectueuse et remplacer ou corriger les switches qui posaient souci. la sécurité employée à travers nos fireWalls physiques et les vlan clients imposent des règles très strictes à tout point de vue du réseau et demande beaucoup de précision lors de toute intervention réseau.

Malgré cette panne fort gênante pour l’activité de nos clients il faut retenir quelques point positifs :

aucune perte de données
implication totale et sans limite des équipes techniques de RD medias et Free Pro
l’optimisation de quelques points dans notre réseau BGP <> FireWalls

D’ici quelques semaines on vous présentera certains points que nous sommes en train d’améliorer …

Bien sincèrement,
l’équipe de RD medias

Please follow and like us: