8 मई को, उत्तरी वर्जीनिया में AWS डेटा सेंटर की कूलिंग में खराबी के कारण ओवरहीटिंग हो गई, जिससे घंटों तक ग्राहकों की सेवाएं ठप रहीं। Coinbase ऑफ़लाइन हो गया और CME Group ने अपने प्लेटफ़ॉर्म पर समस्याओं की सूचना दी। मरम्मत अपेक्षा से धीमी रही, लेकिन असली समस्या तकनीकी नहीं है: यह US-East-1 पर लोड की अत्यधिक सघनता है, जो 2006 से चालू AWS का सबसे पुराना क्षेत्र है।
वह एकल विफलता बिंदु जिसे AWS टाल नहीं सका 🔥
US-East-1 क्षेत्र में स्टार्टअप से लेकर वित्तीय संस्थानों तक, ग्राहकों और महत्वपूर्ण सेवाओं की असमान रूप से बड़ी मात्रा केंद्रित है। हालाँकि AWS ने ट्रैफ़िक को अन्य क्षेत्रों में पुनर्निर्देशित करने का प्रयास किया, लेकिन इस क्षेत्र पर निर्भरता ने एक वास्तुशिल्पीय कमज़ोरी को उजागर कर दिया। ओवरहीटिंग ने खुलासा किया कि यदि भौतिक आधार ध्वस्त हो जाता है तो अतिरेक प्रणालियाँ पर्याप्त नहीं हैं। डेवलपर्स के लिए, सबक स्पष्ट है: क्षेत्रों के बीच लोड वितरित करना वैकल्पिक नहीं है, यह एक आवश्यकता है ताकि एक ही थर्मल विफलता आधे इंटरनेट को पंगु न बना दे।
जब प्लान बी को भी एयर कंडीशनिंग की ज़रूरत हो 💨
AWS ने ट्रैफ़िक को अन्य क्षेत्रों में स्थानांतरित किया, लेकिन ऐसा लगता है कि वे पंखों को सूचित करना भूल गए। मरम्मत में अपेक्षा से अधिक समय लगा क्योंकि, जाहिर तौर पर, किसी ने यह गणना नहीं की थी कि एक गर्म सर्वर बिना कॉफी के प्रोग्रामर की तरह है: यह बस काम नहीं करता। जबकि Coinbase पसीना बहा रहा था और CME Group अपने फ्यूचर्स को अतीत में बदलता देख रहा था, AWS के इंजीनियरों ने सीखा कि चाहे वे कितना भी क्लाउड बेचें, हार्डवेयर को अभी भी थोड़ी ठंडी हवा की ज़रूरत होती है।