おはようございます。
落武者戦闘服です。
またcloudflareで障害起きていました。
ochimusha-sentouhuku.hatenablog.jp

連続障害で揺れるCloudflare
2025年11月〜12月にかけて、Cloudflare が世界規模の大規模障害を立て続けに起こし、「またか」「Cloudflareって品質大丈夫なの?」という声が一気に増えている。とくに、Cloudflare は多くのサイトのCDN・DNS・WAFとして“インターネットの下支え”をしている存在なので、一度止まると「ネット全体が重い・見られない」という体感になりやすく、ユーザーの印象もかなり悪化している。
ほとんどが「内部変更+バグ」起因
直近の11月18日の障害では、Bot Management用の設定ファイルが異常に肥大化し、一部のソフトウェアが耐えきれず落ちたことで、世界各地で大量の5xxエラーが発生したとされている。また、今回のReact RSC脆弱性への対応に絡む障害も、ログ関連の設定変更が引き金になったと説明されており、「また設定変更か」という印象はあながち間違いではない。過去の事例を並べても、WAFルールの誤更新やネットワーク構成ロールアウトの失敗など、「内部の設定変更+潜在的なバグ」の組み合わせが、ほぼ毎回トリガーになっている。
トップクラスだが集中リスクが大きい
ではCloudflareの品質が低いのかというと、平常時のパフォーマンスや機能性、SLAの水準を見る限り、依然として業界トップクラスのプレイヤーなのは間違いない。問題は、そのシェアの大きさと集中度合いだ。多くのサービスがCloudflareに依存しすぎているため、ひとたび設定ミスやバグが表面化すると、影響範囲が一国ではなく“地球規模”になってしまう。これは「Cloudflareがダメ」というより、「一社にインフラを集中させる設計」のリスクが顕在化していると言える。
ユーザー側がとるべき現実的な対策
利用者として現実的なのは、「Cloudflareを全部やめる」ではなく、「いつかは落ちる前提で設計する」という発想に切り替えることだ。具体的には、重要度の高いサービスほどマルチCDN構成を検討したり、DNSレベルで代替経路に切り替えられるフェイルオーバーを用意したりして、“Cloudflareが落ちても全部は止まらない”アーキテクチャを設計しておく必要がある。巨大インフラの連続障害は痛いが、設計を見直すきっかけとしては悪くないタイミングとも言える。