Azure Front Door の障害

2025年10月9日16時40分ごろから、Azure Front Doorの障害が発生しました。症状的にはAzure Portalにログインできない、ログインできてもリソースが見えない、またFront Door経由のサイトにアクセスが遅い/タイムアウトするといった感じです。

画像

Mitigated – Azure Front Door service issue in EMEA, Middle East, Africa 追跡 ID: QNBQ-5W8

What happened?

Between 07:40 UTC and 16:00 UTC on 09 October 2025, a platform issue resulted in impact to the Azure Front Door (AFD) service. Impacted customers experienced intermittent delays or timeouts when accessing their services. This included the ability to access the Azure Portal and Entra Admin Portal. At approximately 12:50 UTC on 09 October 2025, availability of resources recovered and by 16:00 UTC on 09 October 2025, latency decreased and we observed service health at normal levels.

What do we know so far?

The issue was traced to an AFD tenant profile setting which exposed a latent platform bug that triggered crashes in subset of environments. The load on remaining servers reached a performance threshold causing reduced availability and increased latency across Europe, Middle East, and Africa regions.

How did we respond?

  • 07:40 UTC on 09 October 2025 – Customer impact began and increased gradually over the next 90 minutes.
  • 08:13 UTC on 09 October 2025 – We detected this issue via our internal monitoring system after detecting significant resource availability loss across about multiple Azure Front Door services serving Europe, Middle East and Africa regions. Engineers began investigation.
  • 09:04 UTC on 09 October 2025 – We identified that crashes for Kubernetes pod container resources that Azure Front Door (AFD) relies on led to this issue.
  • 09:08 UTC on 09 October 2025 – To address the issue, we addressed the impact of the tenant profile setting that triggered the bug. This was followed by automated pod restarts and manual interventions in environments that did not recover automatically. Other critical services, such as the Microsoft Azure Portal, performed failover operations to bypass the affected AFD endpoints, helping restore service availability.
  • 12:50 UTC on 09 October 2025 – Availability for AFD fully recovered however subset of customers were still facing elevated latency.
  • 16:00 UTC on 09 October 2025 – After continuous monitoring of latency improvement, we declared the issue as mitigated after receiving confirmation of recovery from customers.

22時ごろから回復してさらに4時間後ぐらいにはレイテンシーも減少して正常レベルになったという感じです。(体感的には19時前ぐらいには概ねつながるようにはなってた)
Front Door経由の一部だけみたいな感じなので、Front Doorでカスタムドメイン設定してたサービスとか影響受けました。

現状わかっている原因的にはFront Doorが依存してるKubernetesのPod Containerリソースがクラッシュしたのが原因ぽい。(最初みた文面にはFront Doorの30%ぐらいが影響って書いてた)
クラッシュした原因はFront Doorのテナントプロファイル設定関連でバグがあったようす。それで負荷が上がってパフォーマンスが落ちて、、、という感じのようです。

その後Podの再起動、回復しない環境への手動介入(Front Doorのエンドポイントをバイパスするフェールオーバーの実行など)して復元させていったようです。

Azureポータルが落ちると何かしようにも何もできなくなったりするので困りますね。Front Doorが落ちると影響度が高く、回避策がなかなか面倒くさくて対策が結構大仰になってしまうので頑張ってほしいところです。

2025-11-05 追記

インシデントを振り返る動画シリーズが更新されてました。

2025-12-20 追記

インシデントで得られた教訓とその対策の実践についての記事。

コメントを残す