Forwarded from AWS Notes (Roman Siewko)
It was not DNS. AWS падение 20 октября 2025 года.
1. С чего началось?
Внутренняя подсистема мониторинга NLB внезапно умирает от всплеска нагрузки во внутренней сети AWS.
2. It is always DNS.
Сбой мониторинга и перегрузка трафика вызвали проблемы в разрешении DNS, главным образом затронуты были внутренние AWS endpoints для DynamoDB (но не только).
3. Падаем громко.
DynamoDB тянет за собой EC2 Control Plane, Lambda, SQS, CloudTrail, ECS, EKS и т.д. — потому что они зависят и по данным, и по метаданным.
4. Первый фикс.
DNS for DynamoDB чинят уже спустя два часа. Но каскадное падение многих (143+) сервисов запущено, т.к. проблемный DNS закэшировался во всех этих сервисах.
5. Monitoring blind.
Долгое время никто не знает, что реально происходит - ни CloudWatch, ни внутренний мониторинг не работает.
6. Почему упал не только один регион N.Virginia
Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в
Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности.
7. Как развивалось дальше?
Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов не часто тестировалось ранее, наверняка что-то с этим связанное вызвало серьёзные проблемы.
8. Когда решили проблему и началась стабилизация?
Условно через 12 часов после начала. После ещё около трёх часов окончательно поднимались все остальные сервисы и в результате инцидент продлился около 15 часов.
Итого.
Жду появления в бэклоге AWS своего IAM для каждого региона.
И замените, наконец, народу во внутренней сети их Cisco 2800 на что-нибудь поновее.
1. С чего началось?
Внутренняя подсистема мониторинга NLB внезапно умирает от всплеска нагрузки во внутренней сети AWS.
The root cause is an underlying internal subsystem responsible for monitoring the health of our network load balancers.
2. It is always DNS.
Сбой мониторинга и перегрузка трафика вызвали проблемы в разрешении DNS, главным образом затронуты были внутренние AWS endpoints для DynamoDB (но не только).
DNS resolution issues for the regional DynamoDB service endpoints.
3. Падаем громко.
DynamoDB тянет за собой EC2 Control Plane, Lambda, SQS, CloudTrail, ECS, EKS и т.д. — потому что они зависят и по данным, и по метаданным.
This issue also affects other AWS Services in the US-EAST-1 Region.
4. Первый фикс.
DNS for DynamoDB чинят уже спустя два часа. Но каскадное падение многих (143+) сервисов запущено, т.к. проблемный DNS закэшировался во всех этих сервисах.
After resolving the DynamoDB DNS issue at 2:24 AM, services began recovering but we had a subsequent impairment in the internal subsystem of EC2 that is responsible for launching EC2 instances due to its dependency on DynamoDB.
If you are still experiencing an issue resolving the DynamoDB service endpoints in US-EAST-1, we recommend flushing your DNS caches.
5. Monitoring blind.
Долгое время никто не знает, что реально происходит - ни CloudWatch, ни внутренний мониторинг не работает.
Network Load Balancer health checks also became impaired, resulting in network connectivity issues in multiple services such as Lambda, DynamoDB, and CloudWatch.
6. Почему упал не только один регион N.Virginia
us-east-1?Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в
us-east-1. Поэтому проблема с ними = проблемы у всех регионов.Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности.
Global services or features that rely on US-EAST-1 endpoints such as IAM updates and DynamoDB Global tables may also be experiencing issues.
7. Как развивалось дальше?
Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов не часто тестировалось ранее, наверняка что-то с этим связанное вызвало серьёзные проблемы.
As part of the recovery effort, we temporarily throttled some operations such as EC2 instance launches, processing of SQS queues via Lambda Event Source Mappings, and asynchronous Lambda invocations.
8. Когда решили проблему и началась стабилизация?
Условно через 12 часов после начала. После ещё около трёх часов окончательно поднимались все остальные сервисы и в результате инцидент продлился около 15 часов.
By 3:01 PM, all AWS services returned to normal operations. Some services such as AWS Config, Redshift, and Connect continue to have a backlog of messages.
Итого.
Жду появления в бэклоге AWS своего IAM для каждого региона.
И замените, наконец, народу во внутренней сети их Cisco 2800 на что-нибудь поновее.
