Am 8. Mai löste ein Kühlungsausfall in einem AWS-Rechenzentrum in Nord-Virginia eine Überhitzung aus, die stundenlang Kundendienste lahmlegte. Coinbase war offline und die CME Group meldete Probleme auf ihrer Plattform. Die Reparatur dauerte länger als erwartet, aber das eigentliche Problem ist nicht technischer Natur: Es ist die übermäßige Lastkonzentration in US-East-1, der ältesten, seit 2006 betriebenen AWS-Region.
Der Single Point of Failure, den AWS nicht vermeiden konnte 🔥
Die Region US-East-1 konzentriert eine unverhältnismäßig große Anzahl von Kunden und kritischen Diensten, von Startups bis hin zu Finanzinstituten. Obwohl AWS versuchte, den Datenverkehr in andere Zonen umzuleiten, legte die Abhängigkeit von dieser Region eine architektonische Fragilität offen. Die Überhitzung zeigte, dass Redundanzsysteme nicht ausreichen, wenn die physische Basis zusammenbricht. Für Entwickler ist die Lektion klar: Die Last auf mehrere Regionen zu verteilen ist keine Option, sondern eine Notwendigkeit, um zu verhindern, dass ein einziger thermischer Ausfall das halbe Internet lahmlegt.
Wenn auch Plan B eine Klimaanlage braucht 💨
AWS verlagerte Datenverkehr in andere Zonen, aber sie schienen vergessen zu haben, die Lüfter zu informieren. Die Reparatur dauerte länger als erwartet, weil anscheinend niemand berechnet hatte, dass ein heißer Server wie ein Programmierer ohne Kaffee ist: Er funktioniert einfach nicht. Während Coinbase ins Schwitzen kam und die CME Group zusah, wie ihre Futures zur Vergangenheit wurden, lernten die Ingenieure von AWS, dass die Hardware, egal wie sehr sie die Cloud verkaufen, immer noch ein wenig frische Brise braucht.