Compte-Rendu d`Incident PRELIMINAIRE

publicité
COMPTE-RENDU D'INCIDENT – DATACENTER DC2
PAGE
1/2
Compte-Rendu d’Incident PRELIMINAIRE
Description de l’incident : Interruption d’énergie salle 101 et salle 206
Chronologie
Rédaction
Début de l’incident
: Le 04 / 07 / 2013 à 10 :21
Rédaction
: Arnaud de Bermingham
Fin de l’incident
: Le 04 / 07 / 2013 à 11 :50
Validation
: Arnaud de Bermingham
Durée de l’incident
: 16 min
Emission
: Patrice Pognon
 INTERRUPTION DE SERVICE
 DEGRATION DE SERVICE
Durée de l’interruption : 12 min
Service(s) impacté(s) : Fourniture d’énergie des salles 101 et 206 en architecture N+1
Synthèse chronologique de l’incident
Le datacenter DC2 est composé de 7 chaines électriques (A, B, C, D, E, F1, F2):
Les chaines C, D et E destinées aux autres salles commercialisées en architecture N+N et salle operateurs ne sont pas
évoquées dans le présent document car n’ont subit aucune interruption ou dégradation de service. De même pour les
chaines F1 et F2 : destinées à la climatisation, en architecture N+N.
Chaine A et B :Chaînes électriques alimentant les salles 101 et 206 commercialisées en architecture N+1. L’arrivée
EDF est sécurisée par deux postes de livraison raccordés via 4 câbles hautes tensions (2 câbles de travail, 2 de
secours)Le secours est assuré à la fois par un groupe électrogène principal (en basse tension) dédié à chaque chaine A
et B et par un groupe électrogène de secours (« super secours ») en basse tension commun (N+1)
Les onduleurs sont en formation parallèle et redondante, avec deux onduleurs en redondance (N+2) et un bypass
automatique externe.
Déroulement de l’incident :
10 :21 :14 le poste source EDF « Vitry-Nord » subit un dysfonctionnement grave impactant : Ivry sur Seine, Vitry sur
Seine, Charenton et Maison Alfort. Nos 4 câbles haute tension alimentant le datacenter sont simultanément coupés.
Les réseaux de téléphonie mobile sont rapidement inutilisables, les antennes relais étaient impactées sur une zone
très large, ce qui a retardé l’escalade technique interne.
10 :21 :33 les 7 chaines électriques basculent sur groupe électrogène avec succès, sans coupure.
10 :21 :34 les onduleurs A4 et A5 de la chaine A sont en défaut (défaut « hacheur PFC batterie »), sans coupure sans
conséquence compte tenu de la redondance N+2 de la chaine électrique.
10 :22 :45 Un premier groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en
défaut « hors tolérance ». La chaine électrique associée bascule automatiquement sur le groupe électrogène de
secours (GE-S). Le temps de la bascule, la température des salles augmente très légèrement 3°C, sans impact.
10 :26 :30 Un deuxième groupe électrogène de la chaine A (GE-A) s’arrête en défaut « électronique ». La chaine
électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S), sans coupure.
11 :15 :00 Communication clients d’une difficulté majeure sur le datacenter. Escalade et envoie de renforts depuis
DC3 et depuis le siège de Paris. Appel téléphonique au service dépannage du poste source.
11 :18 :11 Le groupe électrogène de secours (GE-S) s’arrête en défaut mécanique majeur. La chaine A ne disposant
plus de ni 1- l’arrivée principale EDF (composée de 4 câbles indépendants), ni son groupe électrogène GE-A, ni groupe
électrogène de secours GE-S, les 6 sources électrique possibles étant indisponibles, les salles sont alimentées depuis
les batteries des onduleurs.
11 :29 :18 Fin d’autonomie batterie des onduleurs de la chaine A. Coupure de l’alimentation ondulée des salles 101 et
206
11 :41 :23 La décision est prise de remettre en service le groupe électrogène GE-A en « marche forcée pour
réalimenter la chaine A. Cette opération consiste à inhiber l’automate de contrôle du groupe électrogène, défaillant,.
L’opération est un succès, retour de l’énergie dans les salles 101 et 206
Toutes les informations sont issues des outils ILIAD ENTREPRISES et sont présentées au format GMT+1
COMPTE-RENDU D'INCIDENT – DATACENTER DC2
PAGE
2/2
de 11 :48 à 11 :54 Arrivée des renforts et de la direction
11 :54 :20 Retour de l’électricité sur nos 4 câbles haute tension. Les chaines rebascules sur EDF sans interruption de
service à l’exception de la chaine A, que nous laissons sur groupe électrogène afin de charger les batteries.
16 :28 :20 Fin de charge des batteries des onduleurs. La chaine électrique A est basculée manuellement sur EDF avec
succès
16 :45 L’automate est remis en fonctionnement automatique.
De 11 :45 à 19 :30 Les onduleurs A4 et A5 sont réparés, les groupes électrogènes GE-FA, GE-A, GE-S sont réparés et
remis en automatique. Plusieurs essais sont réalisés pour s’assurer du bon fonctionnement de l’infrastructure.
23 :00 Départ des renforts, départ des entreprises de maintenance, communication du rapport préliminaire aux
clients.
Nos infrastructures sont à présent totalement opérationnelles. Il n’existe plus de risque d’interruption depuis 16 :28.
Conséquence
Conséquence de l’incident : Interruption du courant ondulé des salles 101 et 206 pendant 12 minutes. Ces deux salles
représentent 30% de notre datacenter (343 baies). Les autres salles informatiques, commercialisées en architecture
2N, n’ont pas subi ni interruption ni dégradation de service.
Note
Dernières maintenances :
Les derniers essais en charge du datacenter (par coupure des arrivées EDF pendant plus de 15 heures sur 3 jours) ont
étés réalisés les 28/05 29/05 et 30/05, réalisé avec succès suivant le planning d’essai mensuel et trimestriel habituel
(voir l’avis de maintenance associé)
La maintenance mécanique annuelle des groupes électrogènes a été réalisée avec succès du Lundi 01/07 au Mercredi
03/07.
Important
Rapport définitif prévu dans un délai de 24 à 48 heures le temps d’analyser l’ensemble des données collectées.
L’ensemble de nos équipes reste à votre disposition pour tout complément d’informations éventuel.
La direction technique
Toutes les informations sont issues des outils ILIAD ENTREPRISES et sont présentées au format GMT+1
Téléchargement