24h España.

24h España.

Falla en la automatización causa interrupción mundial en Amazon Web Services.

Falla en la automatización causa interrupción mundial en Amazon Web Services.

El 24 de octubre de 2023, en Madrid, se ha revelado que el reciente apagón global de Amazon Web Services (AWS), ocurrido el 20 de octubre, fue provocada por un error en su sistema de automatización. Este fallo impidió solucionar un problema crucial relacionado con el DNS, o sistema de nombres de dominio.

Durante la jornada del 20 de octubre, una amplia gama de plataformas digitales se vio afectada, restringiendo el acceso y funcionalidades en importantes servicios como Amazon, Alexa, Snapchat, así como en populares videojuegos como Fortnite y Epic Games Store. Además, asistentes de inteligencia artificial como ChatGPT de OpenAI y Perplexity también enfrentaron interrupciones en su funcionamiento.

A pesar de que el impacto del incidente fue de carácter global, la fuente del problema se localizó en la región US-EAST-1, específicamente en el norte de Virginia, donde se originaron complicaciones en la resolución del DNS para el API de DynamoDB.

Amazon ha explicado que el problema fue causado por un fallo subyacente en su sistema automatizado de gestión de DNS, lo que lo llevó a fallar en la resolución de ciertos puntos de enlace para DynamoDB. Esta situación crítica es fundamental, ya que DynamoDB depende de cientos de miles de registros DNS para operar eficazmente una vasta serie de balanceadores de carga en cada región.

El desafío principal radicó en que se creó un registro DNS erróneo y vacío para el punto de conexión regional del servicio, el cual no pudo ser corregido automáticamente. Esto culminó en la necesidad de intervención manual para restaurar la normalidad, evidenciando así la fragilidad de los sistemas automatizados en situaciones de alta demanda y la importancia de contar con mecanismos de respaldo efectivos.