8 мая сбой в системе охлаждения центра обработки данных AWS в Северной Виргинии вызвал перегрев, который на несколько часов вывел из строя клиентские сервисы. Coinbase оказалась недоступна, а CME Group сообщила о проблемах на своей платформе. Восстановление заняло больше времени, чем планировалось, но настоящая проблема не техническая: это чрезмерная концентрация нагрузки в US-East-1, старейшем регионе AWS, работающем с 2006 года.
Единственная точка отказа, которую AWS не смог предотвратить 🔥
Регион US-East-1 концентрирует непропорционально большое количество клиентов и критически важных сервисов, от стартапов до финансовых учреждений. Хотя AWS попытался перенаправить трафик в другие зоны, зависимость от этого региона выявила архитектурную уязвимость. Перегрев показал, что систем резервирования недостаточно, если физическая основа рушится. Для разработчиков урок ясен: распределение нагрузки между регионами — это не опция, а необходимость, чтобы единственный тепловой сбой не парализовал половину интернета.
Когда у плана Б тоже нет кондиционера 💨
AWS переместил трафик в другие зоны, но, похоже, забыл предупредить вентиляторы. Восстановление заняло больше времени, чем ожидалось, потому что, видимо, никто не учел, что горячий сервер — как программист без кофе: просто не работает. Пока Coinbase обливалась потом, а CME Group наблюдала, как ее фьючерсы становятся прошлым, инженеры AWS усвоили, что, как бы они ни продавали облака, оборудование все равно нуждается в глотке свежего воздуха.