o que sabemos sobre a pane global da Amazon

Uma lacuna global na Amazon Web Services (AWS), repartição de computação em nuvem da Amazon, provocou instabilidades em centenas de plataformas e serviços nesta segunda-feira (20). A pane afetou grandes empresas e aplicativos populares, incluindo Alexa, Zoom, Duolingo, Snapchat, Fortnite, Mercado Livre e Prime Video.

O problema começou a ser identificado por volta das 4h11 (horário de Brasília) e atingiu pelo menos milénio empresas, segundo dados compilados pelo site Downdetector. No pico do incidente, mais de 6,5 milhões de usuários em diferentes países relataram falhas de aproximação. Embora a situação tenha começado a se regularizar nas primeiras horas da manhã, a Amazon confirmou que ainda havia instabilidades em secção dos serviços.

Omissão global na AWS afeta serviços em todo o mundo (Imagem: Yu Chun Christopher Wong / Shutterstock.com)

O que causou a lacuna na AWS?

De harmonia com a própria Amazon, o problema se concentrou na região US-EAST-1, onde fica um de seus principais datacenters, localizado no setentrião da Virgínia, nos Estados Unidos. Essa extensão é considerada estratégica, pois abriga secção importante da infraestrutura que sustenta operações globais da AWS.

Em expedido, a empresa informou que a interrupção envolveu “taxas de erro significativas” no DynamoDB, o sistema de banco de dados da companhia voltado para aplicações de subida demanda. O problema acabou se espalhando para outros serviços hospedados na mesma região, totalizando mais de 60 produtos impactados.

“Podemos confirmar taxas de erro significativas em solicitações feitas ao serviço DynamoDB na região US-EAST-1. Nossos engenheiros estão trabalhando para mitigar a lacuna e entender completamente a razão”, disse a Amazon por volta das 5h30 (horário de Brasília).

Mais tarde, a companhia detalhou a origem da pane. “Identificamos a origem dos problemas de conectividade de rede que afetaram os serviços da AWS. A razão raiz está em um subsistema interno responsável por monitorar a integridade de nossos balanceadores de fardo. Estamos limitando novas solicitações de geração de instâncias EC2 para facilitar na recuperação e seguimos trabalhando ativamente em medidas de mitigação”, informou a empresa em atualização publicada em sua página de status.

A AWS apresentou diversos erros em seus serviços nesta segunda-feira (Imagem: Reprodução / AWS)

Em atualização mais recente, a AWS informou que continua aplicando medidas de mitigação para a saúde dos balanceadores de fardo de rede e recuperando a conectividade da maioria dos serviços. A empresa destacou que o Lambda ainda apresenta erros na realização de funções devido ao impacto do subsistema interno afetado, e que estão tomando providências para restaurar completamente esse sistema.

Já em relação às falhas no lançamento de instâncias EC2, a AWS afirmou que está validando uma correção e pretende implementá-la na primeira Availability Zone (AZ) mal houver segurança de que a medida não causará novos problemas, com previsão de novidade atualização em breve.

Omissão gravíssima afeta confiabilidade da nuvem

Segundo Arthur Igreja, perito em tecnologia e inovação, a lacuna foi gravíssima e afetou diretamente a confiabilidade da nuvem. Ele explica que o problema envolveu uma lacuna de DNS, que funciona uma vez que a “lista telefônica da internet”. Quando o DNS fica indisponível, os aplicativos não conseguem acessar suas bases de dados, tornando serviços inoperantes por algumas horas.

É uma lacuna técnica gravíssima porque um dos requisitos da nuvem é justamente confiabilidade e disponibilidade. Muitas empresas ficam expostas, sem projecto B, sem opção quando um tanto assim acontece.
Arthur Igreja, perito em tecnologia e inovação

O perito reforça que, mesmo em seguida a Amazon reestabelecer os serviços, a recuperação completa leva horas, já que são aplicações complexas e de grande graduação, não bastando um simples reboot para resolver o problema.

Serviços e aplicativos impactados pelo apagão da AWS

Além de interromper o funcionamento de aplicativos amplamente usados, uma vez que Zoom, Alexa, Duolingo, Snapchat, Prime Video, Fortnite, Roblox, Coinbase, Mercado Livre e Mercado Pago, a lacuna também afetou operações de companhias aéreas e outros bancos e plataformas de e-commerce. Estimativas indicam que mais de milénio empresas foram atingidas em diferentes setores.

No Brasil, o incidente afetou principalmente fintechs e plataformas de e-commerce, enquanto a maior secção dos aplicativos atingidos pertence ao mercado americano. Segundo relatórios de usuários e monitoramento de instabilidades, mais de 500 aplicativos enfrentaram interrupções temporárias, refletindo a submissão crescente de empresas e usuários de uma infraestrutura de nuvem centralizada.

O caso reacende o debate sobre a submissão de serviços de nuvem concentrados em poucas big techs. Especialistas apontam que, com tapume de um terço da internet apoiada na AWS, falhas em um único datacenter podem gerar um efeito dominó sobre sistemas digitais no mundo todo.

A Amazon informou que seus engenheiros seguem monitorando o desempenho da rede e que a maioria dos serviços já foi restaurada. Até as 10h40, 37 dos 60 produtos afetados apareciam uma vez que “resolvidos” na página de integridade da AWS.

A plataforma Downdetector está tendo um dia impaciente no Brasil e no mundo (Imagem: Reprodução)

Risca do tempo das falhas da AWS nesta segunda (20)

A empresa publicou uma série de atualizações detalhando os problemas, suas causas e as medidas de mitigação adotadas ao longo do dia. A seguir, confira a cronologia dos acontecimentos conforme relatado pela própria AWS.

4h11: A AWS iniciou a investigação em seguida identificar aumento de erros e latências em diversos serviços na região US-EAST-1.
4h51: A empresa confirmou o aumento de falhas e alertou que a geração de casos no AWS Support também poderia ser afetada. Engenheiros começaram medidas de mitigação enquanto buscavam a razão do problema.
5h26: Erros significativos foram registrados no endpoint do DynamoDB, afetando também outros serviços. Clientes relatavam dificuldade para gerar ou atualizar casos no suporte.
6h01: A AWS apontou a solução de DNS do endpoint do DynamoDB uma vez que provável razão raiz. A lacuna também impactava serviços globais dependentes da região US-EAST-1.
6h22: A empresa aplicou medidas iniciais de mitigação e informou sinais de recuperação em alguns serviços, embora falhas ainda pudessem ocorrer e backlog de operações permanecesse.
6h27: A maioria das solicitações começou a ser processada normalmente, mas o trabalho para reduzir o backlog continuava.
7h03: Serviços afetados apresentaram recuperação significativa, incluindo aqueles globais que dependem de US-EAST-1.
7h35: Problema de DNS totalmente resolvido, mas solicitações de novas instâncias EC2 ainda apresentavam erros elevados. Serviços uma vez que CloudTrail e Lambda continuavam processando backlog de eventos.
8h08: A AWS seguia trabalhando para restaurar lançamentos de EC2 e reduzir atrasos no polling de Lambda para filas SQS.
8h48: Empresa recomendou lançar instâncias EC2 sem especificar a Availability Zone para açodar a recuperação. Serviços dependentes, uma vez que RDS, ECS e Glue, também eram afetados.
9h10: Processamento de filas SQS via Lambda voltou a ocorrer normalmente, com backlog sendo gradualmente resolvido.
9h48: Recuperação parcial de EC2 em algumas zonas; mitigação sendo aplicada nas demais. EventBridge e CloudTrail operavam sem atrasos significativos.
10h42: Múltiplas medidas foram aplicadas em todas as Availability Zones de US-EAST-1, mas lançamentos de EC2 ainda registravam erros. Rate limiting foi implementado para facilitar na recuperação.
11h14: AWS confirmou que diversos serviços continuavam com erros e problemas de conectividade; investigação da razão prosseguia.
11h29: A empresa observou os primeiros sinais de recuperação da conectividade com os serviços afetados.
12h04: Problema identificado na rede interna do EC2, afetando serviços uma vez que DynamoDB, SQS e Amazon Connect. Mitigações começaram a ser aplicadas.
12h43: AWS apontou que a origem do problema estava em um subsistema interno de monitoramento dos network load balancers. Lançamentos de EC2 foram temporariamente limitados para facilitar na recuperação.
13h13: Mitigações adicionais trouxeram recuperação gradual da conectividade e das APIs; limitações em novos lançamentos de EC2 ainda eram gerenciadas.
14h03: AWS informou que continuava aplicando medidas de mitigação. Erros em funções Lambda persistiam devido ao subsistema afetado, e a correção para lançamentos de EC2 estava sendo validada.

Leia mais:

Um lembrete sobre a fragilidade da internet

Embora a lacuna tenha sido controlada em poucas horas, o incidente mostra uma vez que a infraestrutura da internet continua vulnerável a interrupções em larga graduação. Casos semelhantes já haviam ocorrido em anos anteriores, uma vez que o colapso nos sistemas da CrowdStrike em 2024, que paralisou aeroportos, bancos e hospitais em diferentes países.

Com o propagação da demanda por armazenamento e perceptibilidade sintético, o repto de prometer resiliência e redundância em grandes provedores de nuvem tende a aumentar. E, enquanto poucas empresas concentram boa secção da infraestrutura do dedo global, qualquer instabilidade pode rapidamente se transformar em um apagão mundial.

Assista a filmes e séries

Assine Amazon Prime para testemunhar a filmes e séries populares, incluindo Amazon Originals premiados.
O Amazon Prime também inclui a entrega GRÁTIS e rápida de milhares de itens elegíveis,
mais de 2 milhões de músicas sem anúncios e muito mais. Clique cá e comece seu teste GRÁTIS por 30 dias!

Manadeira: Olhar Do dedo

Buy now

o que sabemos sobre a pane global da Amazon

O que causou a lacuna na AWS?

Omissão gravíssima afeta confiabilidade da nuvem

Serviços e aplicativos impactados pelo apagão da AWS

Risca do tempo das falhas da AWS nesta segunda (20)

Um lembrete sobre a fragilidade da internet

Curtir isso:

Related Articles

Famílias processam a OpenAI após mortes ligadas ao ChatGPT

Motta anuncia Derrite como relator do projeto antifacção

IA corta pela metade tempo de testes da Nissan

LEAVE A REPLY Cancel reply

Latest Articles

Famílias processam a OpenAI após mortes ligadas ao ChatGPT

Motta anuncia Derrite como relator do projeto antifacção

IA corta pela metade tempo de testes da Nissan

Brasil reafirma compromisso de reduzir uso de amálgama com mercúrio

Derrite como relator do PL Antifacção contamina debate, diz Gleisi

Buy now

o que sabemos sobre a pane global da Amazon

O que causou a lacuna na AWS?

Omissão gravíssima afeta confiabilidade da nuvem

Serviços e aplicativos impactados pelo apagão da AWS

Risca do tempo das falhas da AWS nesta segunda (20)

Um lembrete sobre a fragilidade da internet

Curtir isso:

Related Articles

LEAVE A REPLY Cancel reply

Stay Connected

Latest Articles