La gran interrupción de Internet: cómo un único fallo de AWS derribó la Web

10

Cuando Internet se oscurece

En un martes aparentemente normal, un problema técnico en el gigante de la computación en la nube de Amazon acabó con una parte importante de Internet. AWS, el brazo de servicios en la nube de Amazon, experimentó una falla importante que paralizó durante varias horas las plataformas bancarias en línea, los sitios gubernamentales, los gigantes de las redes sociales y los servicios de entrega de alimentos. Esto no fue sólo un pequeño contratiempo para el mundo digital: fue un fracaso en cascada que afectó a millones de personas y empresas.

El problema central: un defecto en la automatización

Según la explicación oficial de AWS, la causa principal fue un error en su software de automatización. Este defecto de software aparentemente pequeño desencadenó una serie de problemas en cascada. El software de automatización del sistema contenía un defecto latente, lo que esencialmente significa un defecto oculto que pasó desapercibido hasta que se activó.

Conectando los puntos: el papel de DNS y DynamoDB

El problema comenzó con el sistema de gestión DNS de AWS. DNS actúa como la guía telefónica de Internet, traduciendo nombres de sitios web legibles por humanos (como www.amazon.com) en direcciones IP numéricas que las computadoras utilizan para comunicarse. Piense en ello como el directorio que ayuda a su computadora a encontrar el servidor adecuado al que conectarse.

En este caso, el sistema de automatización para la gestión de registros DNS cometió un error crítico. Eliminó registros DNS cruciales para uno de los puntos finales regionales de AWS. Esto significó que los servicios que intentaban conectarse a este punto final, incluido el servicio de base de datos crítico de DynamoDB, de repente no pudieron encontrar la ruta correcta.

DynamoDB es un componente fundamental para muchas aplicaciones, ya que almacena datos esenciales de los clientes y potencia innumerables servicios. Cuando se volvió inaccesible, creó un efecto dominó.

El efecto dominó

La falla al conectarse a DynamoDB provocó problemas en múltiples servicios centrales de AWS en la región de Virginia del Norte, que alberga el principal centro de infraestructura en la nube de Amazon. El problema se vio agravado por el hecho de que el sistema de automatización no detectó ni solucionó el problema automáticamente. Esto significó que se requirió intervención humana, lo que agregó un tiempo crucial al proceso de recuperación.

Impacto y repercusiones

Las consecuencias fueron de gran alcance. Si bien los problemas técnicos se resolvieron en unas horas, las fallas en cascada y el posterior desvío del tráfico significaron que muchos sitios web y aplicaciones permanecieron inaccesibles durante la asombrosa cantidad de 14,5 horas.

Según el servicio de monitoreo Downdetector, más de 2,00 (dos mil) sitios web se vieron afectados, lo que afectó a empresas y servicios que van desde Signal hasta Roblox y Snapchat. Lo más importante es que incluso el sitio web sobre impuestos e ingresos del Reino Unido, Gov.UK, fue eliminado. El impacto total en los usuarios fue enorme: los informes indican que más de 8 millones de personas se vieron afectadas por la interrupción.

Por qué esto es importante

Este incidente pone de relieve una tensión crítica en la era digital. Si bien la computación en la nube promete una inmensa escalabilidad y confiabilidad, también centraliza grandes cantidades de tráfico de Internet a través de algunos proveedores importantes. Cuando uno de estos proveedores experimenta una falla interna, los efectos pueden ser generalizados y perturbadores. Plantea preguntas importantes sobre la resiliencia de la infraestructura de Internet y los riesgos asociados con depender tanto de un puñado de poderosas empresas tecnológicas.

Conclusión

La interrupción de AWS sirve como claro recordatorio de que incluso los sistemas tecnológicos más sofisticados no son inmunes a los fallos. Si bien la compañía brindó una explicación, el incidente subraya la fragilidad de la infraestructura fundamental de Internet y el potencial de una interrupción generalizada debido a fallas técnicas en los principales proveedores de la nube.