Зміст
Quando Internet si oscura
In un martedì apparentemente normale, un problema tecnico nel colosso del cloud computing di Amazon ha bloccato una parte significativa di Internet. AWS, la divisione dei servizi cloud di Amazon, ha subito un grave fallimento che ha bloccato per diverse ore le piattaforme bancarie online, i siti governativi, i giganti dei social media e i servizi di consegna di cibo. Non si è trattato solo di un piccolo intoppo per il mondo digitale: si è trattato di un fallimento a cascata che ha colpito milioni di persone e aziende.
Il problema principale: un difetto nell’automazione
Secondo la spiegazione ufficiale di AWS, la causa principale era un bug nel software di automazione. Questo difetto software apparentemente piccolo ha innescato una serie di problemi a cascata. Il software di automazione del sistema conteneva un difetto latente, il che significa essenzialmente un difetto nascosto che passava inosservato finché non veniva attivato.
Collegare i punti: il ruolo di DNS e DynamoDB
Il problema è iniziato con il sistema di gestione DNS di AWS. Il DNS agisce come la rubrica di Internet, traducendo i nomi di siti Web leggibili dall’uomo (come www.amazon.com) in indirizzi IP numerici che i computer utilizzano per comunicare. Considerala come la directory che aiuta il tuo computer a trovare il server giusto a cui connettersi.
In questo caso, il sistema di automazione per la gestione dei record DNS ha commesso un errore critico. Ha eliminato i record DNS cruciali per uno degli endpoint regionali di AWS. Ciò significava che i servizi che tentavano di connettersi a questo endpoint, incluso il servizio database DynamoDB critico, improvvisamente non riuscivano a trovare il percorso corretto.
DynamoDB è un componente fondamentale per molte applicazioni, poiché archivia i dati essenziali dei clienti e alimenta innumerevoli servizi. Quando è diventato inaccessibile, ha creato un effetto a catena.
L’effetto domino
La mancata connessione a DynamoDB ha innescato problemi su più servizi AWS principali nella regione della Virginia del Nord, che ospita il principale hub dell’infrastruttura cloud di Amazon. Il problema era aggravato dal fatto che il sistema di automazione non rilevava e risolveva automaticamente il problema. Ciò significava che era necessario l’intervento umano, aggiungendo tempo cruciale al processo di recupero.
Impatto e ripercussioni
Le conseguenze furono di vasta portata. Sebbene i problemi tecnici siano stati risolti in poche ore, i guasti a catena e il conseguente reindirizzamento del traffico hanno fatto sì che molti siti Web e applicazioni rimanessero inaccessibili per ben 14,5 ore.
Secondo il servizio di monitoraggio Downdetector, sono stati colpiti oltre 2.00 (duemila) siti web, colpendo aziende e servizi che vanno da Signal a Roblox a Snapchat. La cosa più importante è che anche il sito web britannico sulle imposte e sulle entrate, Gov.UK, è stato oscurato. L’impatto totale sugli utenti è stato enorme, con rapporti che indicano che più di 8 milioni di persone sono state colpite dall’interruzione.
Perché è importante
Questo incidente evidenzia una tensione critica nell’era digitale. Sebbene il cloud computing prometta un’enorme scalabilità e affidabilità, centralizza anche grandi quantità di traffico Internet attraverso alcuni dei principali fornitori. Quando uno di questi fornitori subisce un fallimento interno, gli effetti possono essere diffusi e dirompenti. Solleva importanti domande sulla resilienza dell’infrastruttura di Internet e sui rischi associati al fare così tanto affidamento su una manciata di potenti aziende tecnologiche.
Conclusione
L’interruzione di AWS serve a ricordare che anche i sistemi tecnologici più sofisticati non sono immuni da problemi. Sebbene la società abbia fornito una spiegazione, l’incidente sottolinea la fragilità dell’infrastruttura fondamentale di Internet e il rischio di interruzioni diffuse dovute a guasti tecnici presso i principali fornitori di servizi cloud.
