Incident: Infrastructure réseau (Serveurs Smart) [Résolu]

Publié le 8 février 2012 à 11:12 par iWebstaff dans: Statut
Mise à jour 09/02/2012 17H40 HNE – Le problème réseau est maintenant résolu. Par contre plusieurs serveurs connaissent encore des problèmes de connectivité. Comme ces problèmes ne sont pas nécessairement reliés à la panne réseau que nous avons connu, nous devons les investiguer manuellement un par un. Si vous avez déjà créé un ticket, il n’est pas la peine d’en créer un nouveau, nos sysadmins pourront vous donner une mise à jour directement. Vous pouvez également effectuer vos suivis directement en répondant au ticket par courriel.

Pour ouvrir un nouveau ticket veuillez utiliser la section “Serveur non disponible” de votre Hub client (hub.iweb.com) pour qu’un sysadmin puisse faire le suivi directement avec vous. Lorsque vous créez un billet, il ne sera pas affiché dans le hub client pour le moment. Mais ne vous inquiétez pas, nous l’avons dans notre système.

Le temps de réponse sur le chat et au téléphone est également revenu à un niveau plus normal.

Une mise à jour technique plus détaillée sera également publiée dans les prochaines 24-48H suite à notre post-mortem.

Merci encore de votre patience et de votre compréhension.

Mise à jour 09/02/2012 16h15 HNE – Le nombre de serveurs encore touchés est maintenant descendu à moins de 20. Les VLAN des serveurs affectés ont dû être reconfigurés et l’adressage IP a dû être corrigé sur certains serveurs. Prochaine mise à jour à 17:30 HNE

Mise à jour 09/02/2012 15h35 HNE – Nous avons fait quelques progrès puisqu’encore plus de serveurs affectés sont maintenant accessibles. Nous sommes descendus à environ 150 serveurs toujours inaccessibles. Nos administrateurs réseau travaillent encore à ajuster les configurations du réseau afin de fournir à nos clients une solution permanente. La prochaine mise à jour sera publiée à environ 16h15 HNE.

Mise à jour 09/02/2012 14h45 HNE – Une maintenance d’urgence du réseau  est actuellement en cours afin d’appliquer de nouvelles configurations de réseau (http://blog.iweb.com/fr/2012/02/maintennance-centre-de-controle/11525.html). Nous nous attendons à ce que cela contribue à atténuer les problèmes de connectivité affectant encore environ 450 serveurs. La prochaine mise à jour sera publiée à 15h30 HNE.

Mise à jour 2012-02-09 12:20 AM HNE- 90% des adressages IP et du trafic sur notre centre de données NE (Serveurs Smart) est de retour à la normale

Pour ceux ayant encore des difficultés à accéder à leurs serveurs ou leurs sites Web, nous vous conseillons d’effectuer les actions suivantes afin de rétablir vos services, car ils nos clients nous ont rapportés que cela à fonctionné pour eux.

1. Déterminez si vous accédez au serveur en SSH
2. Effectuez une requête DNS pour  rétablir la table ARP (Address Resolution Protocol)

  • connectez-vous au serveur via ssh en utilisant une IP publique (pas le nom de  domaine)
  • faites un ping sur n’importe quel site public comme google.com

3. redémarrez tous les services et le réseau

tapez les commandes suivantes:

CentOS: service network restart OU/etc/init.d/network restart

Debian/Ubuntu: /etc/init.d/networking restart

Cependant si cela ne fonctionne toujours pas pour vous, nous vous invitons à ouvrir un ticket dans la section “Serveur non disponible” de votre Hub client (hub.iweb.com) pour qu’un sysadmin puisse faire le suivi directement avec vous.

Lorsque vous créez un billet, il ne sera pas affiché dans le hub client pour le moment. Mais ne vous inquiétez pas, nous l’avons dans notre système. Si vous avez déjà créé un ticket pour le problème en cours, veuillez ne pas en créer un nouveau.

Nous vous rappelons que du à la plus grande quantité de tickets à traiter, le temps de réponse sur le chat et au téléphone est plus lent que la normale.

Mise à jour 09/02/2012 9:00 AM HNE-Nous investiguons actuellement un problème avec la résolution des noms de domaines qui affecte certains de nos clients. Toujours pas d’ETA. Merci encore pour votre patience.

Mise à jour 09-02-2012 8:00 AM EDT – Lorsque vous créez un billet, il ne sera pas affiché dans le hub client pour le moment. Mais ne vous inquiétez pas, nous l’avons dans notre système. Si vous avez déjà créé un ticket pour le problème en cours, veuillez ne pas en créer un nouveau.

Mise à jour 2012-02-09 7:00 AM HNEnous attendons une nouvelle mise à jour de la part de notre équipe réseau. Du à la plus grande quantité de tickets à traiter, le temps de réponse sur le chat et au téléphone est plus lent que la normale. Merci de votre patience.

Mise à jour 2012-02-09 5:00 AM HNE: Le réseau est stable dans notre centre de données

Si vous rencontrez encore des problèmes du côté serveur s’il vous plaît faire ce qui suit:

redémarrez tous les services qui ne répondent pas

Faire un ping sur vos NS personnalisés (Exemple: ns1.votredomaine.com , ns2.votredomain.com) si vous utilisez votre serveur comme autorité DNS

tapez les commandes suivantes:

CentOS: service network restart OR /etc/init.d/network restart

Debian/Ubuntu: /etc/init.d/networking restart

Cependant si cela ne fonctionne toujours pas pour vous, nous vous invitons à ouvrir un ticket dans la section “Serveur injoignable” de votre Hub client (hub.iweb.com) pour qu’un sysadmin puisse faire le suivi directement avec vous.

Mise à jour 2012-02-09 04:10 HNE: L’équipe du réseau a eu à redémarrer plusieurs routeurs sur NE. Les Serveurs Smart seront indisponible pendant environ 10 minutes. Nous vous remercions de votre patience.

Mise à jour 09/02/2012 03h30 HNE: Une minorité de clients peut encore éprouver quelques problèmes de connectivité. Pour ceux qui sont encore des problèmes s’il vous plaît mentionner votre ID de serveur sur notre live chat et un agent procéder à des vérifications supplémentaires .

Mise à jour 2012-02-09 02:50 HNE: Le Réseau est maintenant entièrement fonctionnel. Tous les services, à l’exception de Ping, sont fonctionnels mais vous pourriez recevoir temporairement des fausses alertes de surveillance , bien que tous les serveurs Smart affectés sont désormais accessibles. L’équipe réseau continue à étudier le problème et nous devrions être en mesure de fournir une description plus complète de l’incident plus tard aujourd’hui.

Mise à jour 2012-02-09 1:25 HNE: Cet incident affecte un segment de notre réseau Smart Server et les serveurs Classiques ne sont donc pas affectés. Notre équipe réseau travaille toujours activement sur le problème et nous devrions être en mesure de fournir une explication plus complète de l’incident d’ici environ une heure. Nous nous excusons sincèrement pour tout inconvénient que cette situation peut causer.

Début: 2012-02-08 23:00 HNE
Temps estimé de résolution: Indéterminé
Impact: Certains serveurs au centre de données NE

Nous investiguons présentement une situation qui semble affecter un segment de notre réseau.

Notre équipe technique travaille activement à trouver une solution à ce problème. Nous communiquerons régulièrement avec vous pour vous informer du déroulement de l’opération.

Nous sommes désolés des inconvénients que cette situation peut vous causer. Si vous avez des questions, n’hésitez pas à contacter notre équipe de soutien technique (http://fr.iweb.com/contacts/).

Nous vous remercions de votre patience et de votre compréhension.

Commentaires

  1. À quoi ça sert un “Statut des systèmes” s’il y a 30 min de décalage entre la panne et le changement de status?

  2. 2012 la fin du monde aproche :) “Joke” mais j’avoue comme dit John À quoi ça sert un “Status des systèmes” s’il y a un 30 minutes de décalage entre la panne et le changement de status ???

  3. Bonsoir à tous,

    Veuillez noter que iWeb fait tout en son pouvoir afin de régler la situation le plus rapidement possible. Nous nous excusons pour tout problème causé par cet incident et nous vous remercions de votre patience.

    Nous sommes au courant que l’accès au site web d’iWeb ainsi qu’à votre centre de contrôle peut être interrompu car nous recevons un excès de requêtes en ce moment. Nous vous aviserons via ce blog aussitôt que nous auront plus d’informations et un estimé du temps requis pour résoudre la situation.

    Merci pour votre patience et votre compréhension.

    Dominic G.
    Administrateur Système chez iWeb Technologies

  4. Je peux avoir Trio Big Mac pour l’attente :)

  5. Gabriel, John, on me rapporte que le problème est réglé mais qu’une minorité de clients ont encore des problèmes de connectivité. Est-ce que c’est correct de votre côté?

  6. non!

  7. dans combien de temps on va avoir notre serveur?

  8. Notre organisation perd de la crédibilité, nous venons tout juste de faire le lancement du site web

  9. sabri cadaawe, quel est l’ID de votre serveur?

  10. NE-T006-480

  11. J’ai des clients qui finance leurs sites grâce à mon site qui est down actuellement. jusqu’à maintenant j’estime une perte de 1600€ et des clients qui ralent. je n’arrête pas de recevoir des mails de clients. C’est une panne inacceptable

  12. Alors Stéphane Jose, qu’est-ce qui ce passe?

  13. Mon id serveur est : NE-T029-490

  14. Mise à jour 2012-02-09 04:10 HAE: L’équipe du réseau a eu à redémarrer plusieurs routeurs sur NE. Les Serveurs Smart seront indisponible pendant environ 10 minutes. Nous vous remercions de votre patience.

  15. Le redémarrage des routeur du Segment 1 de iWeb-NE est presque terminé. Merci de votre patience!

  16. Merci à vous également.

    Mon serveur est bien fonctionnel maintenant, par contre mes sites sont toujours inaccessibles.

    Je viens de recevoir des mails de deux de mes clients à ce propos, j’espère que ca va se régler le plus tot possible avant de les répondre.

    NB. J’écris ici parceque c’est impossible d’avoir des contacts sur le chat ou le support technique

  17. NE-T006-480 Ne fonctionne toujours pas

  18. Toujours rien de mon coté non plus. Je viens de perdre un de mes clients. il quitte mon service. Merci iWeb

  19. Mon serveur smart ne fonctionne toujours pas, pouvez vous régler la situation?

  20. Bonjour, mes sites ne répondent toujours pas. Voici mon ID : NE-T009-020

  21. Franchement! vous offrez vraiment un mauvais service à la clientèle! Je pensais faire une bonne affaire avec une entreprise d’ici au Canada. Nous somme très déçu et maintenant c’est notre petite compagnie qui va payer le prix pour tous ça.

  22. sabri cadaawe avez-vous essayé les commandes indiquées plus haut?

  23. Cependant si cela ne fonctionne toujours pas pour vous, nous vous invitons à ouvrir un ticket dans la section “Serveur injoignable” de votre Hub client (hub.iweb.com) pour qu’un sysadmin puisse faire le suivi directement avec vous.

  24. Si une panne de réseau se produit, iWeb compensera ses clients avec un crédit équivalent à un jour de service pour les 15 premières minutes d’indisponibilité et un crédit d’un jour de service pour chacune des heures suivantes. Le crédit peut être réclamé jusqu’à concurrence du montant mensuel payé pour le service.

  25. Oui Y, pour faire une demande de crédit SLA il vous faudra créer une requête à cet effet via le hub lient, section assistance (il y a un formulaire pour cela).

  26. Très désagréable comme situation depuis 22H40 le 8 Février 2012 que nous somme en panne :( il est maintenant 15H10 allons nous avoir des résultat possitif bientôt ?

  27. Mon serveur est de retour… ça m’a coûté 2 clients.
    je vais effectivement faire une demande… que signifie SLA au juste?
    y.

  28. Y cela signifie, Service Level Agreement. Désolé j’aurais du utiliser le terme français, accords de niveau de service.

  29. @Gabriel, notre équipe fait son possible pour régler les cas particuliers. Le nombre de serveurs encore affectés descend rapidement mais je n’ai pas encore d’heure précise de résolution. Merci de votre patience.

  30. Merci Jose… Bon courage à l’équipe, ça m’a vraiment causé des ennuies tout ça. ; (

  31. Y vraiment désolé. Merci de votre patience. Cela devrait être bientôt réglé et nous prévoyons poster un texte plus explicatif après notre post-mortem

  32. RQ #5253186] [DEDI][127270] SMART SERVER NE-T082-040 my server is still offline

  33. i still have no website working here on the smart server NE T082-020

  34. Finnaly it works…thank’s

  35. C’est une vrai farce … s’il reste seulement 20 serveurs touchés, je dois croire que mes deux serveurs font parti du lot? Si c’est vraiment le cas, le bon dieu doit avoir une dent contre notre entreprise. Ça fait deux fois en 6 mois que nous avons ce genre de problème avec iWeb. Je ne suis même pas capable de pigner mon serveur, et ce, même à partir d’un autre serveur smart du même data center. J’espère que iWeb va dédommager ses clients parce qu’avec tout ça, nous sommes en train de perdre notre crédibilité auprès des clients. Et je n’ai toujours pas eu de réponse du service technique.

  36. @Dimitri

    >>RQ #5253186] [DEDI][127270] SMART SERVER NE-T082-040
    >>my server is still offline

    I’m escalating to our support NOW.
    I see your smart being NE-T022-040 and responding to ping :
    ping 184.107.180.114
    PING 184.107.180.114 (184.107.180.114): 56 data bytes
    64 bytes from 184.107.180.114: icmp_seq=0 ttl=60 time=3.924 ms
    64 bytes from 184.107.180.114: icmp_seq=1 ttl=60 time=14.096 ms

    I will have our team contact you in the ticket # 5253186

    Thanks for your patience.
    Merci !

  37. @GSH quel est votre numéro de ticket? En avez-vous créé un dans la section “Serveur non disponible” de votre hub client?

  38. @Dimitri

    >>Finnaly it works…thank’s

    ok thanks for the update

  39. Je viens d’être avisé qu’il reste encore des switch à changer dans le Data Center. Pourquoi est-ce que l’incident est indiqué comme étant résolu quand ce n’est pas le cas? J’ai envoyé un lien à mes clients vers ce blog afin qu’ils puissent suivre les développements de l’incident. Ils voient que le problème est résolu mais leurs sites ne sont toujours pas en ligne. Nous allons passer pour des menteurs!

  40. Ahhhhh! Enfin. Après près de 20 heures, notre dernier serveur est revenu en ligne. Merci ;) J’espère juste que ça va durer.

  41. @GSH

    Votre serveur à l’air de répondre au ping maintenant mais pas de manière régulière cependant.
    Il doit y avoir quelquechose d’autre.
    J’escalade quand même au support pour qu’ils regardent de plus prêt.

    Merci

  42. Merci beaucoup Bertrand :)

  43. Stéphane Jose a dit “nous prévoyons poster un texte plus explicatif après notre post-mortem”. Quand et où sera disponible ce texte? J’aimerais pouvoir y donner accès à nos clients lorsque nous allons leur envoyer un courrier afin de s’excuser des inconvénients et leur expliquer le problème en détail.

  44. @GHS le texte devrait être disponible d’ici 24-48h et sera publié sur ce blogue.

  45. Il est 21h14 nous venons de recevoir une réponse personnalisé à notre ticket, 17 heures après l’ouverture de celui-ci. Pour information, nous avons donc eu deux périodes offline de 24h en 6 jours pour deux problèmes matériels et techniques inhérents à iWeb…
    Les conséquences financières furent immédiates sur notre PME et notre crédibilité envolées auprès d’un gros client pour une présentation de notre site avec un site offline.
    Pour seule consolation… un simple mail d’excuse sans aucune compensation de proposé à l’intérieur.
    En commerce, il se dit une chose.
    Un client satisfait en parlera deux personnes autour de lui.
    Un client insatisfait en parlera à dix…
    Je vous laisse imaginer le résultat qu’Iweb paiera un jour avec un service et du matériel défectueux et aussi peu d’empathie et de sens du commerce avec ses clients…

  46. Je suis tout à fait avec Gwen… Ici nous avons l’air d’abrutis face à nos clients, surtout ceux à qui on vante les mérites de la technologie SMART. Nous en avons perdu 2 d’ailleurs qui ne peuvent plus tolérer avoir des bugs de courriels. J’ai du me taper la migration d’un site vers un serveur Vidéotron.

    Je me questionne sérieusement sur le futur de nos service d’hébergement je ne suis pas sur de vouloir offrir ce service encore… Après tout nous sommes une boite de communication graphique.
    J’suis vachement pas content et perturbé.

    Moi ce que je veux c’est de dormir sur mes deux oreilles, c’est pour ça qu’on paye aussi cher par mois…

    Peux être peuvent-il nous inclure le package de backup gratuitement au moins en guise dédommagement

    y.

  47. Nous n’avons rencontré aucun problème . Pour nous, les services offerts par ADN Communication sont très bons et fiables.

  48. @Gwen

    Bonjour, je suis sincèrement désolé que l’expérience que vous avez vécu ne soit pas à la hauteur de ce vous espérez et je peux vous assurer que ce n’est pas non plus celle que nous voulons donner à nos clients.

    Nous travaillons très fort à bâtir des infrastructures solides (par exemple nous mettons 2 disques en redondances dans TOUS les serveurs smart) avec comme seul objectif : qu’elles correspondent au besoins de nos clients et leur permettent d’héberger leur projet et de les faire grandir.

    Malheureusement des incidents imprévus peuvent arriver de temps en temps même si nos infrastructure sont bâties de façon redondante.

    Je vais remonter au managers le fait que vous n’ayez pas eu l’information mais nous avons une garantie en cas d’incident imprévu sur le réseau ou l’alimentation électrique (que nous honorons sans discuter) et qui va vous permettre d’obtenir une compensation telle que prévue dans nos contrats.

    Les détails de la garantie sont ici : http://fr.iweb.com/disponibilite-du-reseau
    Pour accéder au formulaire de demande via votre hub client (gestion de compte) :
    A/ aller dans Finances et Paiements > Produits Renouvelables
    B/ cliquer sur “détails” en face du serveur concerné
    C/ cliquer ensuite sur “Demande de crédit SLA” et remplir le formulaire.

    Bonne fin de journée

  49. @Y

    je comprends vos inquiétudes et peut vous assurer que ce genre d’incident n’est pas à la hauteur du service que nous donnons habituellement à nos milliers de clients.

    Je vous invite aussi à remplir une demande de crédit et en plus, concernant le backup, contactez notre support technique, ils devraient pouvoir vous “arranger” quelque chose en mentionnant votre commentaire ici et demandant à ce qu’un responsable s’occupe de votre ticket.

    Vous pouvez me mentionner si besoin, il me fera plaisir d’en parler avec les responsables.

    Cordialement,
    Bertrand

  50. @tout le monde

    Bonjour,
    Le problème réseau est maintenant résolu.

    Si vous avez déjà créé un ticket, il n’est pas la peine d’en créer un nouveau, nos sysadmins pourront vous donner une mise à jour directement. Vous pouvez également effectuer vos suivis directement en répondant au ticket par courriel.
    Notez qu’actuellement, lorsque vous créez un billet, il ne sera pas affiché dans le hub client pour le moment. Mais ne vous inquiétez pas, nous l’avons dans notre système.
    Le temps de réponse sur le chat et au téléphone est également revenu à un niveau plus normal.

    Une mise à jour technique plus détaillée sera également publiée dans les prochaines 24-48H suite à notre post-mortem.

    Merci encore de votre patience, confiance et de votre compréhension.

    Les commentaires sur ce post, comme l’incident, vont être fermés mais notre service client est disponible 24/7 pour répondre à votre demandes / remarques.

À propos du blog de iWeb

Le blog d'iWeb couvre l'hébergement web, le développement web, la conception web, le marketing Internet et à peu près toutes les annonces concernant iWeb.