DOFH - DevOps from hell 3902

Forwarded from AWS Notes (Roman Siewko)

It was not DNS. AWS падение 20 октября 2025 года.

1. С чего началось?

Внутренняя подсистема мониторинга NLB внезапно умирает от всплеска нагрузки во внутренней сети AWS.

The root cause is an underlying internal subsystem responsible for monitoring the health of our network load balancers.

2. It is always DNS.

Сбой мониторинга и перегрузка трафика вызвали проблемы в разрешении DNS, главным образом затронуты были внутренние AWS endpoints для DynamoDB (но не только).

DNS resolution issues for the regional DynamoDB service endpoints.

3. Падаем громко.
DynamoDB тянет за собой EC2 Control Plane, Lambda, SQS, CloudTrail, ECS, EKS и т.д. — потому что они зависят и по данным, и по метаданным.

This issue also affects other AWS Services in the US-EAST-1 Region.

4. Первый фикс.

DNS for DynamoDB чинят уже спустя два часа. Но каскадное падение многих (143+) сервисов запущено, т.к. проблемный DNS закэшировался во всех этих сервисах.

After resolving the DynamoDB DNS issue at 2:24 AM, services began recovering but we had a subsequent impairment in the internal subsystem of EC2 that is responsible for launching EC2 instances due to its dependency on DynamoDB.

If you are still experiencing an issue resolving the DynamoDB service endpoints in US-EAST-1, we recommend flushing your DNS caches.

5. Monitoring blind.

Долгое время никто не знает, что реально происходит - ни CloudWatch, ни внутренний мониторинг не работает.

Network Load Balancer health checks also became impaired, resulting in network connectivity issues in multiple services such as Lambda, DynamoDB, and CloudWatch.

6. Почему упал не только один регион N.Virginia us-east-1?

Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в us-east-1. Поэтому проблема с ними = проблемы у всех регионов.
Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности.

Global services or features that rely on US-EAST-1 endpoints such as IAM updates and DynamoDB Global tables may also be experiencing issues.

7. Как развивалось дальше?

Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов не часто тестировалось ранее, наверняка что-то с этим связанное вызвало серьёзные проблемы.

As part of the recovery effort, we temporarily throttled some operations such as EC2 instance launches, processing of SQS queues via Lambda Event Source Mappings, and asynchronous Lambda invocations.

8. Когда решили проблему и началась стабилизация?

Условно через 12 часов после начала. После ещё около трёх часов окончательно поднимались все остальные сервисы и в результате инцидент продлился около 15 часов.

By 3:01 PM, all AWS services returned to normal operations. Some services such as AWS Config, Redshift, and Connect continue to have a backlog of messages.

Итого.

Жду появления в бэклоге AWS своего IAM для каждого региона.

И замените, наконец, народу во внутренней сети их Cisco 2800 на что-нибудь поновее.

788 views08:16

DOFH - DevOps from hell

Forwarded from Адовый UX

Война машин. Начало

467 views09:33

2025/10/24 10:49:07
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.bootg.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>