Pemadaman Internet Hebat: Bagaimana Satu Glitch AWS Menghancurkan Web

12

Saat Internet Menjadi Gelap

Pada hari Selasa yang tampak biasa saja, kesalahan pada raksasa komputasi awan Amazon melumpuhkan sebagian besar internet. AWS, cabang layanan cloud Amazon, mengalami kegagalan besar yang membuat platform perbankan online, situs pemerintah, raksasa media sosial, dan layanan pesan-antar makanan terhenti selama beberapa jam. Hal ini bukan hanya masalah kecil bagi dunia digital – ini merupakan kegagalan beruntun yang berdampak pada jutaan orang dan dunia usaha.

Masalah Inti: Cacat dalam Otomatisasi

Menurut penjelasan resmi AWS, akar masalahnya adalah bug pada perangkat lunak otomasi mereka. Cacat perangkat lunak yang tampaknya kecil ini memicu serangkaian masalah yang berjenjang. Perangkat lunak otomasi sistem mengandung cacat laten, yang pada dasarnya berarti cacat tersembunyi yang tidak diketahui hingga diaktifkan.

Menghubungkan Titik-Titik: Peran DNS dan DynamoDB

Masalahnya dimulai dengan sistem manajemen DNS AWS. DNS bertindak seperti buku telepon internet, menerjemahkan nama situs web yang dapat dibaca manusia (seperti www.amazon.com) menjadi alamat IP numerik yang digunakan komputer untuk berkomunikasi. Anggap saja sebagai direktori yang membantu komputer Anda menemukan server yang tepat untuk dihubungkan.

Dalam kasus ini, sistem otomasi untuk mengelola catatan DNS membuat kesalahan kritis. Ini menghapus catatan DNS penting untuk salah satu titik akhir regional AWS. Ini berarti layanan yang mencoba menyambung ke titik akhir ini, termasuk layanan database DynamoDB yang penting, tiba-tiba tidak dapat menemukan jalur yang benar.

DynamoDB adalah komponen fundamental untuk banyak aplikasi, menyimpan data penting pelanggan dan mendukung layanan yang tak terhitung jumlahnya. Ketika tidak dapat diakses, hal ini menciptakan efek riak.

Efek Domino

Kegagalan untuk terhubung ke DynamoDB memicu masalah di beberapa layanan inti AWS di wilayah Virginia Utara, yang merupakan pusat infrastruktur cloud utama Amazon. Masalahnya diperparah oleh fakta bahwa sistem otomasi tidak secara otomatis mendeteksi dan memperbaiki masalah tersebut. Ini berarti diperlukan campur tangan manusia, sehingga menambah waktu penting dalam proses pemulihan.

Dampak dan Dampaknya

Konsekuensinya sangat luas. Meskipun masalah teknis diselesaikan dalam beberapa jam, kegagalan yang terjadi secara bertahap dan perubahan rute lalu lintas menyebabkan banyak situs web dan aplikasi tetap tidak dapat diakses selama 14,5 jam.

Menurut layanan pemantauan Downdetector, lebih dari 2.00 (dua ribu) situs web terpengaruh, berdampak pada bisnis dan layanan mulai dari Signal, Roblox, hingga Snapchat. Yang terpenting, bahkan situs pajak dan pendapatan Inggris, Gov.UK, telah dihapus. Dampak total terhadap pengguna sangat besar, dengan laporan menunjukkan bahwa lebih dari 8 juta orang terkena dampak pemadaman ini.

Mengapa Ini Penting

Insiden ini menyoroti ketegangan kritis di era digital. Meskipun komputasi awan menjanjikan skalabilitas dan keandalan yang luar biasa, komputasi awan juga memusatkan lalu lintas internet dalam jumlah besar melalui beberapa penyedia utama. Ketika salah satu penyedia layanan ini mengalami kegagalan internal, dampaknya bisa meluas dan mengganggu. Hal ini menimbulkan pertanyaan penting tentang ketahanan infrastruktur internet dan risiko yang terkait dengan ketergantungan yang terlalu besar pada segelintir perusahaan teknologi yang kuat.

Kesimpulan

Pemadaman AWS berfungsi sebagai pengingat bahwa sistem teknologi tercanggih sekalipun pun tidak kebal terhadap gangguan. Meskipun perusahaan telah memberikan penjelasannya, insiden tersebut menggarisbawahi kerapuhan infrastruktur dasar internet dan potensi gangguan yang meluas akibat kegagalan teknis pada penyedia cloud besar.