في 8 مايو، تسبب عطل في نظام التبريد في مركز بيانات تابع لـ AWS في شمال فيرجينيا في ارتفاع درجة الحرارة مما أدى إلى تعطيل خدمات العملاء لساعات. توقفت Coinbase عن العمل، وأبلغت مجموعة CME عن مشاكل في منصتها. كان الإصلاح أبطأ من المتوقع، لكن المشكلة الحقيقية ليست تقنية: بل هي التركيز المفرط للحمل في US-East-1، أقدم منطقة في AWS، والتي تعمل منذ عام 2006.
نقطة الفشل الفردية التي لم تستطع AWS تجنبها 🔥
تركز منطقة US-East-1 عددًا غير متناسب من العملاء والخدمات الحيوية، من الشركات الناشئة إلى المؤسسات المالية. على الرغم من أن AWS حاولت إعادة توجيه حركة المرور إلى مناطق أخرى، إلا أن الاعتماد على هذه المنطقة كشف عن هشاشة معمارية. كشف ارتفاع درجة الحرارة أن أنظمة التكرار ليست كافية إذا انهارت القاعدة المادية. بالنسبة للمطورين، الدرس واضح: توزيع الحمل بين المناطق ليس خيارًا، بل ضرورة لتجنب أن يؤدي عطل حراري واحد إلى شل نصف الإنترنت.
عندما تحتاج الخطة ب أيضًا إلى تكييف هواء 💨
نقلت AWS حركة المرور إلى مناطق أخرى، لكن يبدو أنهم نسوا إبلاغ المراوح. استغرق الإصلاح وقتًا أطول من المتوقع لأنه، على ما يبدو، لم يحسب أحد أن الخادم الساخن يشبه المبرمج بدون قهوة: ببساطة لا يعمل. بينما كانت Coinbase تتعرق بغزارة، وكانت مجموعة CME ترى كيف تتحول عقودها الآجلة إلى ماضٍ، تعلم مهندسو AWS أنه بغض النظر عن مقدار السحابة التي يبيعونها، لا تزال الأجهزة بحاجة إلى القليل من النسيم البارد.