Un fallo en un único punto desencadenó la caída de Amazon: este fue el responsable de todo
Un simple error en las direcciones que guían el tráfico digital, que desaparecieron de golpe, paralizó miles de servicios globales hace unos días
Amazon Web Services, la columna vertebral invisible de buena parte de los servicios digitales, sufrió uno de los mayores apagones de su historia tras un fallo que duró más de 15 horas. Y ahora conocemos que la causa fue un único error en la gestión del DNS dentro de DynamoDB, la base de datos en la nube de Amazon. Una cascada de fallos en cadena acabó convirtiéndose en un terremoto digital que afectó a millones de usuarios en todo el mundo.
El fallo que sumió 16 horas de caos a la nube de Amazon
Este apocalipsis digital se inició en el centro de datos más antiguo de Amazon, situado en el estado Virginia. Fue entonces cuando un fallo en el sistema que gestiona las direcciones de Internet provocó un tremendo caos: dos programas automáticos, llamados Enactors, aplicaron rutas distintas al mismo tiempo. El resultado fue devastador, ya que se borraron direcciones IP críticas, dejando a la red en un estado que solo pudo resolverse con intervención manual.
Durante más de 15 horas, gigantes como Snapchat o Roblox quedaron fuera de juego. Según la firma de monitorización Ookla, su servicio DownDetector recibió más de 17 millones de reportes de fallo de más de 3.500 organizaciones. La magnitud del problema fue tal que Ookla asegura que el evento está "entre las mayores interrupciones de Internet registradas por Downdetector".
Ese fallo inicial en el DNS hizo que colapsaran también los servidores virtuales de Amazon en esa misma región, provocando retrasos masivos en las actualizaciones que mantenían la red al día. Se sabe que los servidores virtuales podían arrancar, pero no lograban conectarse a la red. Y los fallos alcanzaron otros servicios de Amazon, como sus sistemas de bases de datos, de ejecución de tareas y hasta su propio centro de soporte. El problema creció como una bola de nieve imposible de frenar.
Según la empresa Ookla, el verdadero problema no fue solo un error de software, sino la excesiva concentración de servicios en la región del estado de Virginia. Muchas aplicaciones globales, aunque se anuncien como descentralizadas, dependen de ese núcleo para procesos clave de identidad, metadatos o almacenamiento. Cuando esa pieza cae, todo el castillo se desmorona.
Por tanto, parece que la lección está clara: en la nube, la perfección técnica no existe. El objetivo no debería ser evitar fallos, sino contenerlos. Las soluciones pasan por crear diferentes planes de contingencia, utilizar varias regiones al mismo tiempo y tratar a los servicios en la nube como una infraestructura esencial para la economía de los países desarrollados. Y es que ya hemos comprobado que un solo error basta para dejar a medio planeta bloqueado.