Le 8 mai, une panne de refroidissement dans un centre de données d'AWS dans le nord de la Virginie a déclenché une surchauffe qui a mis hors service les clients pendant des heures. Coinbase est devenue hors ligne et le CME Group a signalé des problèmes sur sa plateforme. La réparation a été plus lente que prévu, mais le vrai problème n'est pas technique : c'est la concentration excessive de charge dans US-East-1, la région la plus ancienne d'AWS, opérationnelle depuis 2006.
Le point de défaillance unique qu'AWS n'a pas su éviter 🔥
La région US-East-1 concentre une quantité disproportionnée de clients et de services critiques, des startups aux institutions financières. Bien qu'AWS ait tenté de rediriger le trafic vers d'autres zones, la dépendance à cette région a exposé une fragilité architecturale. La surchauffe a révélé que les systèmes de redondance ne suffisent pas si la base physique s'effondre. Pour les développeurs, la leçon est claire : distribuer la charge entre les régions n'est pas optionnel, c'est une nécessité pour éviter qu'une seule panne thermique ne paralyse la moitié d'Internet.
Quand le plan B a aussi besoin de climatisation 💨
AWS a déplacé le trafic vers d'autres zones, mais il semble qu'ils aient oublié de prévenir les ventilateurs. La réparation a pris plus de temps que prévu car, apparemment, personne n'avait calculé qu'un serveur chaud est comme un programmeur sans café : ça ne fonctionne tout simplement pas. Pendant que Coinbase suait à grosses gouttes et que le CME Group voyait ses futurs devenir du passé, les ingénieurs d'AWS ont appris que, peu importe le nuage qu'ils vendent, le matériel a toujours besoin d'un peu d'air frais.