Em 8 de maio, uma falha no sistema de refrigeração de um datacenter da AWS no norte da Virgínia desencadeou um superaquecimento que derrubou serviços de clientes por horas. A Coinbase ficou offline e o CME Group relatou problemas em sua plataforma. O reparo foi mais lento do que o previsto, mas o verdadeiro problema não é técnico: é a concentração excessiva de carga na US-East-1, a região mais antiga da AWS, operacional desde 2006.
O ponto único de falha que a AWS não soube evitar 🔥
A região US-East-1 concentra uma quantidade desproporcional de clientes e serviços críticos, desde startups até instituições financeiras. Embora a AWS tenha tentado redirecionar o tráfego para outras zonas, a dependência dessa região expôs uma fragilidade arquitetônica. O superaquecimento revelou que os sistemas de redundância não são suficientes se a base física colapsar. Para os desenvolvedores, a lição é clara: distribuir a carga entre regiões não é opcional, é uma necessidade para evitar que uma única falha térmica paralise metade da internet.
Quando o plano B também precisa de ar condicionado 💨
A AWS moveu o tráfego para outras zonas, mas parece que esqueceram de avisar os ventiladores. O reparo levou mais tempo do que o esperado porque, aparentemente, ninguém havia calculado que um servidor quente é como um programador sem café: simplesmente não funciona. Enquanto a Coinbase suava a camisa e o CME Group via seus futuros se tornarem passado, os engenheiros da AWS aprenderam que, por mais nuvem que vendam, o hardware ainda precisa de um pouco de brisa fresca.