Великий збій в Інтернеті: як один збій AWS призвів до падіння Інтернету

10

Коли Інтернет стає темним

У цілком звичайний вівторок збій у гіганті хмарних обчислень Amazon закрив велику частину Інтернету. У AWS, відділі хмарних послуг Amazon, стався серйозний збій, через який на кілька годин зупинилися платформи онлайн-банкінгу, державні веб-сайти, гіганти соціальних мереж і служби доставки їжі. Це був не просто незначний збій у цифровому світі — це була каскадна катастрофа, яка вплинула на мільйони людей і компаній.

Основна проблема: Дефект автоматизації

Згідно з офіційним поясненням AWS, першопричиною була помилка в їх програмному забезпеченні автоматизації. Цей, здавалося б, невеликий дефект програмного забезпечення спричинив низку каскадних проблем. Програмне забезпечення автоматизації містило прихований дефект, який, по суті, означав прихований недолік, який не було помічено, доки його не було активовано.

З’єднання точок: роль DNS і DynamoDB

Проблема почалася з системою DNS AWS. DNS діє як «телефонна книга» Інтернету, перекладаючи зрозумілі людині назви веб-сайтів (наприклад, www.amazon.com) у цифрові IP-адреси, які комп’ютери використовують для зв’язку. Уявіть собі каталог, який допомагає вашому комп’ютеру знайти правильний сервер для підключення.

У цьому випадку система автоматизації керування DNS-записами допустила критичну помилку. Вона видалила важливі записи DNS для однієї з регіональних кінцевих точок AWS. Це означало, що служби, які намагалися підключитися до цієї сторони, включно з критичною службою DynamoDB, раптово не могли знайти правильний шлях.

DynamoDB є основним компонентом для багатьох додатків, зберігаючи важливі клієнтські дані та забезпечуючи незліченну кількість служб. Коли він став недоступним, це створило ефект хвилі.

Ефект доміно

Неможливість підключення до DynamoDB спричинила проблеми в кількох основних службах AWS у регіоні Північної Вірджинії, де розташований головний центр хмарної інфраструктури Amazon. Що погіршило проблему, так це те, що система автоматизації не виявила й не усунула проблему автоматично. Це означало, що потрібне втручання людини, що додало критичного часу для процесу відновлення.

Наслідки та реакції

Наслідки були далекими. Хоча технічні проблеми було вирішено протягом кількох годин, каскадні збої та подальше перенаправлення трафіку призвели до того, що багато веб-сайтів і програм залишалися недоступними протягом неймовірних 14,5 годин.

За даними служби моніторингу Downdetector, постраждали понад 2000 веб-сайтів, що вплинуло на бізнес і сервіси від Signal до Roblox і Snapchat. Важливо зазначити, що навіть веб-сайт податкової служби Великої Британії Gov.UK було видалено. Загальний збиток для користувачів був величезним, за повідомленнями, понад 8 мільйонів людей постраждали від збою.

Чому це важливо

Інцидент підкреслює критичну напругу в епоху цифрових технологій. Хоча хмарні обчислення обіцяють величезну масштабованість і надійність, вони також централізують величезну кількість Інтернет-трафіку через кількох великих провайдерів. Коли один із цих постачальників відчуває внутрішній збій, вплив може бути поширеним і періодичним. Це піднімає важливі питання щодо стійкості інтернет-інфраструктури та ризиків, пов’язаних із надмірною залежністю від кількох великих технологічних компаній.

Висновок

Збій у роботі AWS служить яскравим нагадуванням про те, що навіть найскладніші технологічні системи не застраховані від збоїв. Незважаючи на те, що компанія надала пояснення, цей інцидент підкреслює крихкість фундаментальної інфраструктури Інтернету та потенціал широкомасштабних збоїв через технічні збої в основних хмарних провайдерах.