En primer lugar, pido disculpas por el título del post, os aseguro que he intentado escribir otro, pero me ha sido imposible, éste es el que me pedía el cuerpo.
Ayer viernes, a las tres de la tarde, uno de los 4 switches de red de 24 puertos empezó a volverse loco, empezando a saltar todas las alarmas porque las maquinas no se veían entre sí, la red se había vuelto loca.
Al acceder a la maquina en cuestión y al ver que no se podía entrar por consola, la reiniciamos y cuando se encendió de nuevo, no arrancaba, con la alerta amarilla de “management” encendida.
Ufff!
Pensamos que el resto de la red (los otros 3 switches) probablemente estaban enviándole demasiado tráfico o tráfico ARP inconsistente, así que decidimos apagarlos todos y encenderlos progresivamente.
Pero no encendían, también se quedaban en amarillo con la luz de “management”, y por mucho que reiniciábamos los equipos (incluso con todos los puertos desconectados), no hubo forma, únicamente nos quedaba el “factory reset”
Ahí fué cuando decidimos reemplazar los 4 switches por otros que teníamos en el almacén, que seguramente era más rápido y seguro que abrir los equipos y cambiar jumpers para reiniciarlos y volverlos a configurar.
Así, lo hicimos, y al cambiarlos … todo funcionó de nuevo …
… ¿Todo? .. pues no !, el BGP de nuestro proveedor estaba configurado incorrectamente y costó más de lo debido en ponerlo en marcha, pero tras eso y algún glitch más … volvimos a estar online .. casi tres horas de caída.
Os adjunto un gráfico del tráfico de salida perdido durante ese periodo y el coletazo de las horas siguientes:
Ahí se puede ver la diferencia de tráfico de salida entre el viernes anterior y ayer, a las siete de la tarde todo estaba en marcha, pero nos habíamos perdido la hora punta.
Vaya febrero que llevamos, entre unas cosas y otras.
Menuda fiesta voy a organizar el 1 de Marzo .. ¿alguien se apunta?
Pues al final no fue todo tan malo no? Porque veo que actualizas tu blog, asi que vivo sigues!
Publicado por: Videos | 10/04/11 en 15:06