L'8 maggio, un guasto al sistema di raffreddamento di un data center AWS nel nord della Virginia ha causato un surriscaldamento che ha messo fuori uso i servizi dei clienti per ore. Coinbase è rimasta offline e il CME Group ha segnalato problemi sulla propria piattaforma. La riparazione è stata più lenta del previsto, ma il vero problema non è tecnico: è l'eccessiva concentrazione del carico su US-East-1, la regione più vecchia di AWS, operativa dal 2006.
Il punto unico di guasto che AWS non ha saputo evitare 🔥
La regione US-East-1 concentra una quantità sproporzionata di clienti e servizi critici, dalle startup alle istituzioni finanziarie. Sebbene AWS abbia tentato di reindirizzare il traffico verso altre zone, la dipendenza da questa regione ha esposto una fragilità architettonica. Il surriscaldamento ha rivelato che i sistemi di ridondanza non sono sufficienti se la base fisica collassa. Per gli sviluppatori, la lezione è chiara: distribuire il carico tra le regioni non è un'opzione, è una necessità per evitare che un singolo guasto termico paralizzi metà di internet.
Quando il piano B ha bisogno anche lui dell'aria condizionata 💨
AWS ha spostato il traffico verso altre zone, ma sembra che si siano dimenticati di avvisare i ventilatori. La riparazione ha richiesto più tempo del previsto perché, a quanto pare, nessuno aveva calcolato che un server caldo è come un programmatore senza caffè: semplicemente non funziona. Mentre Coinbase sudava sette camicie e il CME Group vedeva i propri futures diventare passato, gli ingegneri di AWS hanno imparato che, per quanta nuvola vendano, l'hardware ha ancora bisogno di un po' di brezza fresca.