Post Mortem: Network Infrastructure Incident
We experienced a problem that affected the performance of a segment of our network from Wednesday, February 8 to Thursday, February 9.
As of 10:30 PM EST, Wednesday evening, two of our distribution routers (on a fleet of 20 routers) experienced CPU overload caused by abnormal traffic originating from one of our distribution switches.
We found that this abnormal traffic was received on specific ports and that the percentage of CPU utilization rose rapidly to 100%. We worked with the manufacturer to determine the exact nature of this traffic and once identified it was blocked in order to restore connectivity.
Connectivity for servers connected to these routers was gradually restored starting at around 4:00 AM EST. Thursday morning, 90% of affected servers were again accessible. At about 5:00 PM EST, network connectivity to all servers was finally restored.
We continue to investigate the problem with the manufacturer and maintenance will be performed next week to implement the corrective actions necessary to prevent this situation from happening again.
This incident did not cause any data loss for customers and no server hardware has been affected. LAN connectivity was also maintained at all times.
The network is now stable and we are closely monitoring its performance.
We apologize for any inconvenience this may have caused.
We appreciate your patience and your understanding.
Tuvimos un problema que afectó el rendimiento de un segmento de nuestra red desde el miércoles 8 de febrero hasta el jueves 9 de febrero.
Desde las 22.30 hs. (tiempo del este) del miércoles, dos de nuestros routers de distribución (de un flota de 20), sufrieron una sobrecarga de CPU, provocada por un tráfico anormal procedente de un conmutador de distribución.
Pudimos constatar que este tráfico anormal fue recibido en ciertos puertos y que el porcentaje de uso del CPU subió rápidamente hasta alcanzar el 100%. Trabajamos con el fabricante para determinar la causa exacta del este tráfico y después de haberlo identificarlo, lo bloqueamos con el fin de restaurar la conectividad.
La conectividad de los servidores relacionados con estos routers fue gradualmente restablecida y hacia las 4.00 hs. (tiempo del este), 90% de los servidores afectados ya se encontraban accesibles. Sobre las 17.00 hs. (tiempo del este), la conectividad de todos los servidores fue restablecida.
Seguimos estudiando el problema con el fabricante y un mantenimiento se llevará a cabo la semana que viene para aplicar las medidas y acciones correctivas que se impongan para evitar que esta situación se repita.
El incidente no provocó ninguna pérdida de datos de clientes y ningún servidor fue afectado a nivel de hardware.
La red ha recuperado su estabilidad y estamos monitoreando su rendimiento.
Comments
No comments yet.

Blog
Forum
Status

Recent Comments