Falha simultânea em sistemas automatizados provoca grande pane na AWS e derruba serviços globais

Uma pane de grande proporção na Amazon Web Services (AWS) interrompeu, na última segunda-feira, o funcionamento de aplicativos e plataformas usados em todo o mundo. O problema, detalhado pela companhia em relatório divulgado na quinta-feira (25), começou com um bug que envolveu dois sistemas automatizados tentando atualizar o mesmo dado ao mesmo tempo.

A falha gerou um registro vazio no DNS — comparado pelos especialistas ao “catálogo telefônico” da internet — e desencadeou instabilidade em diversos serviços da nuvem da Amazon. Usuários ficaram impedidos de pedir comida, acessar bancos pelo celular, conectar-se a redes hospitalares, monitorar dispositivos de segurança e usar aparelhos domésticos inteligentes. Empresas como Netflix, Starbucks e United Airlines também relataram dificuldades temporárias para atender clientes on-line.

Causas técnicas

Segundo a AWS, o erro ocorreu quando dois programas “competiram” para escrever o mesmo registro de DNS. O conflito acabou removendo a informação necessária para que os serviços soubessem onde se conectar. “O catálogo simplesmente desapareceu”, explicou Angelique Medina, chefe do serviço de monitoramento ThousandEyes, da Cisco.

Indranil Gupta, professor de engenharia elétrica e de computação na Universidade de Illinois, comparou a situação a dois estudantes que escrevem no mesmo caderno: o aluno mais rápido apaga constantemente o que o mais lento registrou, deixando a página em branco. Esse “caderno vazio” derrubou o banco de dados DynamoDB, provocando um efeito dominó que atingiu recursos como o EC2, responsável por servidores virtuais, e o Network Load Balancer, que distribui tráfego na rede. Quando o DynamoDB voltou, o EC2 tentou religar todos os servidores de uma vez e não conseguiu acompanhar a demanda.

Medidas corretivas

Para evitar novos incidentes, a Amazon informou que vai corrigir a condição de corrida que permitiu a sobreposição dos dados e adicionar uma nova bateria de testes ao EC2. “Pedimos desculpas pelo impacto”, declarou a empresa, acrescentando que pretende “aprender com o evento” para aumentar a disponibilidade da plataforma.

Falha simultânea em sistemas automatizados provoca grande pane na AWS e derruba serviços globais - Imagem do artigo

Imagem: Lisa Eadicicco

Raridade, mas inevitável

Gupta ressaltou que panes desse porte são incomuns, porém fazem parte da realidade de infraestruturas em larga escala. “O mais importante é como a empresa reage e mantém os clientes informados”, observou o professor.

Com informações de CNN Business