Apagão na AWS: calor na Virgínia deixa Coinbase e CME fora do ar

Em 8 de maio, uma falha no sistema de refrigeração de um datacenter da AWS no norte da Virgínia desencadeou um superaquecimento que derrubou serviços de clientes por horas. A Coinbase ficou offline e o CME Group relatou problemas em sua plataforma. O reparo foi mais lento do que o previsto, mas o verdadeiro problema não é técnico: é a concentração excessiva de carga na US-East-1, a região mais antiga da AWS, operacional desde 2006.

A imagem mostra um mapa dos EUA com um ponto vermelho brilhante na Virgínia, do qual irradiam linhas de calor em direção aos ícones da Coinbase e do CME Group em preto. Ao fundo, servidores empilhados emitem vapor e luzes de advertência âmbar, simbolizando o superaquecimento e a antiguidade da região US-East-1.

O ponto único de falha que a AWS não soube evitar 🔥

A região US-East-1 concentra uma quantidade desproporcional de clientes e serviços críticos, desde startups até instituições financeiras. Embora a AWS tenha tentado redirecionar o tráfego para outras zonas, a dependência dessa região expôs uma fragilidade arquitetônica. O superaquecimento revelou que os sistemas de redundância não são suficientes se a base física colapsar. Para os desenvolvedores, a lição é clara: distribuir a carga entre regiões não é opcional, é uma necessidade para evitar que uma única falha térmica paralise metade da internet.

Quando o plano B também precisa de ar condicionado 💨

A AWS moveu o tráfego para outras zonas, mas parece que esqueceram de avisar os ventiladores. O reparo levou mais tempo do que o esperado porque, aparentemente, ninguém havia calculado que um servidor quente é como um programador sem café: simplesmente não funciona. Enquanto a Coinbase suava a camisa e o CME Group via seus futuros se tornarem passado, os engenheiros da AWS aprenderam que, por mais nuvem que vendam, o hardware ainda precisa de um pouco de brisa fresca.