COMPTE-RENDU D'INCIDENT – DATACENTER DC2 PAGE 1/2 Compte-Rendu d’Incident PRELIMINAIRE Description de l’incident : Interruption d’énergie salle 101 et salle 206 Chronologie Rédaction Début de l’incident : Le 04 / 07 / 2013 à 10 :21 Rédaction : Arnaud de Bermingham Fin de l’incident : Le 04 / 07 / 2013 à 11 :50 Validation : Arnaud de Bermingham Durée de l’incident : 16 min Emission : Patrice Pognon INTERRUPTION DE SERVICE DEGRATION DE SERVICE Durée de l’interruption : 12 min Service(s) impacté(s) : Fourniture d’énergie des salles 101 et 206 en architecture N+1 Synthèse chronologique de l’incident Le datacenter DC2 est composé de 7 chaines électriques (A, B, C, D, E, F1, F2): Les chaines C, D et E destinées aux autres salles commercialisées en architecture N+N et salle operateurs ne sont pas évoquées dans le présent document car n’ont subit aucune interruption ou dégradation de service. De même pour les chaines F1 et F2 : destinées à la climatisation, en architecture N+N. Chaine A et B :Chaînes électriques alimentant les salles 101 et 206 commercialisées en architecture N+1. L’arrivée EDF est sécurisée par deux postes de livraison raccordés via 4 câbles hautes tensions (2 câbles de travail, 2 de secours)Le secours est assuré à la fois par un groupe électrogène principal (en basse tension) dédié à chaque chaine A et B et par un groupe électrogène de secours (« super secours ») en basse tension commun (N+1) Les onduleurs sont en formation parallèle et redondante, avec deux onduleurs en redondance (N+2) et un bypass automatique externe. Déroulement de l’incident : 10 :21 :14 le poste source EDF « Vitry-Nord » subit un dysfonctionnement grave impactant : Ivry sur Seine, Vitry sur Seine, Charenton et Maison Alfort. Nos 4 câbles haute tension alimentant le datacenter sont simultanément coupés. Les réseaux de téléphonie mobile sont rapidement inutilisables, les antennes relais étaient impactées sur une zone très large, ce qui a retardé l’escalade technique interne. 10 :21 :33 les 7 chaines électriques basculent sur groupe électrogène avec succès, sans coupure. 10 :21 :34 les onduleurs A4 et A5 de la chaine A sont en défaut (défaut « hacheur PFC batterie »), sans coupure sans conséquence compte tenu de la redondance N+2 de la chaine électrique. 10 :22 :45 Un premier groupe électrogène dédié à la climatisation (GE-F1) subit des pompages moteurs et s’arrête en défaut « hors tolérance ». La chaine électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S). Le temps de la bascule, la température des salles augmente très légèrement 3°C, sans impact. 10 :26 :30 Un deuxième groupe électrogène de la chaine A (GE-A) s’arrête en défaut « électronique ». La chaine électrique associée bascule automatiquement sur le groupe électrogène de secours (GE-S), sans coupure. 11 :15 :00 Communication clients d’une difficulté majeure sur le datacenter. Escalade et envoie de renforts depuis DC3 et depuis le siège de Paris. Appel téléphonique au service dépannage du poste source. 11 :18 :11 Le groupe électrogène de secours (GE-S) s’arrête en défaut mécanique majeur. La chaine A ne disposant plus de ni 1- l’arrivée principale EDF (composée de 4 câbles indépendants), ni son groupe électrogène GE-A, ni groupe électrogène de secours GE-S, les 6 sources électrique possibles étant indisponibles, les salles sont alimentées depuis les batteries des onduleurs. 11 :29 :18 Fin d’autonomie batterie des onduleurs de la chaine A. Coupure de l’alimentation ondulée des salles 101 et 206 11 :41 :23 La décision est prise de remettre en service le groupe électrogène GE-A en « marche forcée pour réalimenter la chaine A. Cette opération consiste à inhiber l’automate de contrôle du groupe électrogène, défaillant,. L’opération est un succès, retour de l’énergie dans les salles 101 et 206 Toutes les informations sont issues des outils ILIAD ENTREPRISES et sont présentées au format GMT+1 COMPTE-RENDU D'INCIDENT – DATACENTER DC2 PAGE 2/2 de 11 :48 à 11 :54 Arrivée des renforts et de la direction 11 :54 :20 Retour de l’électricité sur nos 4 câbles haute tension. Les chaines rebascules sur EDF sans interruption de service à l’exception de la chaine A, que nous laissons sur groupe électrogène afin de charger les batteries. 16 :28 :20 Fin de charge des batteries des onduleurs. La chaine électrique A est basculée manuellement sur EDF avec succès 16 :45 L’automate est remis en fonctionnement automatique. De 11 :45 à 19 :30 Les onduleurs A4 et A5 sont réparés, les groupes électrogènes GE-FA, GE-A, GE-S sont réparés et remis en automatique. Plusieurs essais sont réalisés pour s’assurer du bon fonctionnement de l’infrastructure. 23 :00 Départ des renforts, départ des entreprises de maintenance, communication du rapport préliminaire aux clients. Nos infrastructures sont à présent totalement opérationnelles. Il n’existe plus de risque d’interruption depuis 16 :28. Conséquence Conséquence de l’incident : Interruption du courant ondulé des salles 101 et 206 pendant 12 minutes. Ces deux salles représentent 30% de notre datacenter (343 baies). Les autres salles informatiques, commercialisées en architecture 2N, n’ont pas subi ni interruption ni dégradation de service. Note Dernières maintenances : Les derniers essais en charge du datacenter (par coupure des arrivées EDF pendant plus de 15 heures sur 3 jours) ont étés réalisés les 28/05 29/05 et 30/05, réalisé avec succès suivant le planning d’essai mensuel et trimestriel habituel (voir l’avis de maintenance associé) La maintenance mécanique annuelle des groupes électrogènes a été réalisée avec succès du Lundi 01/07 au Mercredi 03/07. Important Rapport définitif prévu dans un délai de 24 à 48 heures le temps d’analyser l’ensemble des données collectées. L’ensemble de nos équipes reste à votre disposition pour tout complément d’informations éventuel. La direction technique Toutes les informations sont issues des outils ILIAD ENTREPRISES et sont présentées au format GMT+1