Incident: Alimentation électrique – centre de données iWeb-NE (Résolu)

Publié le 6 mars 2015 à 3:52 par iWeb Technologies dans: Statut

Mise à jour: Évènement du 6 mars 2015

Certains de nos clients ont été directement touchés par une panne de courant dans une partie de notre centre de données iWeb-NE, le vendredi 6 mars 2015. Lors de cet incident, certains clients utilisant nos plates-formes de serveurs Classique et serveurs Smart ont été incapables d’accéder à leurs serveurs directement ou par l’intermédiaire du Centre de contrôle. Tout au long de cette situation malencontreuse, nos équipes de soutien technique et de gestion des centres de données ont travaillé avec diligence pour rétablir vos services aussi rapidement que possible et de vous tenir à jour via notre blogue et nos différents canaux de médias sociaux.

La cause de cette panne est la résultante d’une défaillance de système dans l’un de nos UPS dans le centre de données iWeb-NE. Nous bâtissons toujours nos plates-formes en fonction de la haute disponibilité et nous effectuons régulièrement des opérations de maintenance et d’autres manipulations sans impact sur tous les environnements des clients. Ce week-end passé, nous avons fait face à un problème qui a fait en sorte que la redondance de l’alimentation électrique n’a pas basculée vers une section du centre de données. De ce fait, une partie de nos clients de serveurs Classique, Smart et Cloud ont été touchés et ont été incapables d’accéder à leurs serveurs. Les équipes d’opérations et d’ingénierie d’iWeb ont pris connaissance de l’incident immédiatement et nous avons rapidement débuté le processus d’urgence afin de traiter la panne de courant et par le fait même, rétablir les services de nos clients. Nous avons été en mesure de rétablir les services de nos clients de serveurs Classique et Cloud le vendredi en soirée. Pour nos clients de serveurs Smart, nous avons été en mesure de rétablir une partie des services durant la nuit et la portion restante fut rétablie dans la matinée de samedi.

Ceux d’entre vous qui sont avec nous depuis plusieurs années savent que nous prenons l’expérience client très au sérieux et visons à être aussi transparent que possible dans nos communications et mises à jour. Soyez assurés que nous publierons un rapport d’incident sous peu qui couvrira la chronologie des événements, les mesures prises, la cause et la résolution. Nous tenons à nous excuser sincèrement pour l’interruption de service. Nous sommes conscients que nos services sont essentiels pour votre entreprise, et nous sommes déterminés à apprendre de cet incident et de travailler fort pour rétablir votre confiance en nous. C’est toujours un plaisir d’avoir de vos nouvelles donc si vous avez des questions ou des commentaires, vous pouvez le faire à cette adresse feedback@iweb.com.

Cordialement,
Elya McCleave,
Vice-présidente principale, Expérience client

Mise à jour #16- 07 mars, 11:00am HNE – L’incident a été résolu avec succès.

Nous surveillerons durant les prochaines heures la performance et la stabilité des services affectés afin de s’assurer que tout fonctionne normalement.

Nous sommes désolés des inconvénients que cette situation a pu vous causer. Si vous avez des questions, n’hésitez pas à contacter notre équipe de support technique.

Mise à jour #15 – 07 mars, 10:30am HNE: Tous les services seront de retour en ligne sous peu.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour #14 – 07 mars, 09:00am HNE: Notre équipe technique travaille toujours activement à rétablir pleinement tous nos services. Un segment de nos services de serveur Smart est toujours en phase de redémarrage progressif.

Temps de résolution estimé: 4 à 5 heures.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour #13 – 07 mars, 07:00am HNE: Notre équipe technique a travaillé toute la nuit et travaille toujours activement à rétablir pleinement tous nos services. Un segment de nos services de serveur Smart est toujours en phase de redémarrage progressif.

Nous ne pouvons fournir le temps de résolution pour le moment mais dès que nous aurons plus d’informations, une mise à jour récente sera publiée.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour #12 – 07 mars, 00:30pm HNE: Notre équipe technique travaille activement à rétablir pleinement tous nos services à la normale.

Aucun temps de résolution à transmettre pour le moment.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour #11 – 06 mars, 10:45pm HNE: Nous éprouvons un ralentissement de nos systèmes présentement. Notre équipe technique travaille activement à rétablir pleinement tous nos services à la normale.

Aucun temps de résolution à transmettre pour le moment.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour #10 – 06 mars, 10:00pm HNE: Une maintenance est en cours au niveau du Centre de Contrôle.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour #9 – 06 mars, 8:40pm HNE: L’alimentation électrique et la redondance sont revenues à 100% à la normale.

Temps de résolution estimé pour les services de serveur Smart: 1 heure et 30 minutes à 2 heures

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour #8 – 06 mars, 7:26pm HNE: Nos services de serveur Classique sont de retour en ligne.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour #7 – 06 mars, 7:00pm HNE: Nous estimons un temps de résolution de 3 heures pour nos services de serveur Smart.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour #6 – 06 mars, 6:49pm HNE: Nos services de Cloud V2 (basé sur OpenStack) sont de retour en ligne. Nos services de serveur Smart redémarre progressivement et presque de retour en ligne totalement.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour # 5 – 06 mars, 6:33pm HNE: L’alimentation électrique est maintenant de retour à la normale. Nos services de Cloud V1 sont de retour en ligne et les services de serveur Smart redémarre progressivement. Nos services de Cloud V2 (basé sur OpenStack) va redémarrer progressivement dans 15 minutes.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour # 4 – 06 mars, 6:10pm HNE: L’équipement affecté a été localisé et isolé, les systèmes serons alimentés progressivement sur génératrices au cours de la prochaine heure.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour # 3 – 06 mars, 5:50pm HNE: Tous les spécialistes techniques d’iWeb sont sur place et travaillent avec acharnement afin de résoudre le problème.

Nous allons continuer à communiquer toutes les mises à jour.

Nous vous communiquerons très prochainement un estimé du temps de résolution.

Mise à jour # 2 – 06 mars, 4:57pm HNE: Un électricien est sur place et travaille activement sur la résolution du problème.

Temps estimé de résolution: 1 heure minimum.

Nous allons continuer à communiquer toutes les mises à jour.

Mise à jour # 1 – 06 mars, 4:19pm HNE: Nos services de Cloud et un segment de nos services de serveurs Smart, Classic et VPR sont affectés par cet incident.

Notre équipe technique travaille activement à rétablir pleinement tous nos services.

Aucun temps estimé de résolution, nous allons continuer à communiquer toutes les mises à jour.

Début: 6 mars 2015, 3:35pm HNE
Temps estimé de résolution: À déterminer

Nous investiguons présentement une situation qui semble affecter un segment de notre réseau de distribution électrique au centre de données iWeb-NE.

Notre équipe technique travaille activement à trouver une solution à ce problème. Nous communiquerons régulièrement avec vous pour vous informer du déroulement de l’opération.

Nous sommes désolés des inconvénients que cette situation peut vous causer. Si vous avez des questions, n’hésitez pas à contacter notre équipe de soutien technique (http://fr.iweb.com/contacts/).

Nous vous remercions de votre patience et de votre compréhension.

Commentaires

Pas encore de commentaire.