ブルースクリーン問題の原因究明と顛末は

日本時間の7月19日発生した「WindowsOSが突然ブルースクリーン化、強制再起動を繰り返した」システム障害の発生事象。影響範囲は広範で全世界の850万台あまりのWindows端末が被害を受け、その台数は全体の1%未満と言われ、公共交通機関が麻痺したり、物流倉庫や医療機関が機能不全に陥るなど全世界の各地域で業務への甚大な被害をもたらしました。

皮肉なことにある航空会社はシステムにWindows3.1やWindows95と言った化石OSを使用していたおかげで、今回の問題の影響を受けなかったそうです。
そのためCrowdStrike社のシステムアップデートに伴う大規模な障害発生要因をMicrosoftが詳細に分析、その結果を最近ウェブに公開しています。興味をお持ちの方は下記リンクからページをご覧ください。セキュリティ ツールの統合と管理のための Windows セキュリティのベスト プラクティス |Microsoft セキュリティ ブログ

原因究明

上記ページの原文は英語であり、ブラウザーの直訳モードでは分かりづらいのですが、障害発生は『CSAgent.sysドライバーの領域外読み取りメモリへの安全なアクセスへの違反エラー』によるものと結論づけられています。
ファイル作成や変更など、ファイル操作に関する通知の受け取りを目的としてWindowsに登録されたCSAgent.sysドライバーですが、これを用いてディスクに保存された新しいファイルをセキュリティ製品(CrowdStrike)を介してスキャン、セキュリティ性を高めるのが元来の狙いでした。ところが、実行ファイル「CSAgent.sys」内の「mov r9d, [r8]」というコマンドに不正なメモリアドレスが指定されてしまっていた可能性が高いことが報告されています。

そもそも不正アドレスを指定してクラッシュを直接発生させたアプリケーションは「CSAgent.sys」でしたが、不正アドレスデータは「C-00000291-[環境ごとに別々].sys」というファイルに保存され、そのファイルを読み込んだ「CSAgent.sys」はクラッシュを引き起こしていたことが判明しています。そこで「セーフモードで起動させ、問題の『C-00000291~.sys』ファイルを削除する」という方法によりクラッシュ問題の解決が図られたのです。

お問い合わせはこちら

費用やスケジュール・サービス詳細に関するご不明点や疑問点などもお気軽にお問合せください。原則翌営業日までにご回答しておりますが、内容によりお時間がかかる場合も…

ご不明な点がございましたら、お気軽にお問い合わせください。

呆れた顛末

元凶であるセキュリティベンダーCrowdStrike社からは数日後に早速「97%以上がオンラインに戻っている」との報告が出されていますが、被害企業やエンジニアにUber Eats10ドル分の「コーヒー」クーポンを配ったらしく事実とすれば、その豪胆さには呆れるとともに驚かされます。事態はクライアントの企業活動に重大な悪影響を及ぼすアクシデント、再発防止策の構築が急がれるところです。

教訓は

特に被害が酷いのが航空業界、とある米国の航空会社では最大4000便以上のフライトがキャンセルされたそう。また米国の小児病院では、世界的な技術障害の影響を受けて患者ケアとシステム運用の中断を最小限に抑えるべく懸命に取り組み、システム復旧を目指す涙ぐましい努力が続けられたそうです。

ところが逆にニューヨークの地下鉄や路線バスなどを運営する「メトロポリタン・トランスポーテーション・オーソリティ(MTA)」では、『時代遅れ』のシステムを使っていたことが幸いして難を逃れたことが報じられています。MTAが運営する地下鉄や路線バスは一連の混乱の中でも普段通りに運行、500万人のニューヨーカーの足として普段通りに通勤できたそうです。

平常時ならば時代遅れのITシステムが放置されていると非難を浴びる事態ですが、今回の非常時に当たっては時代遅れのシステムが功を奏した事例と言えます。
また今回のOSクラッシュ問題は、WindowsとLinuxディストリビューションでは発生していますが、macOSではこれまでのところ大きな問題が出ていないのも特徴的です。

今回の事態の教訓として、こうした事態に備えておくことこそが重要です。たとえば緊急時にはmacOSなど別OSに即時に切り替えられるようにしておくことも検討の余地があります。最終的にはエラー原因のソフトウェアの修正アップデートがCrowdStrikeよりリリースされましたが、多くのPCが自動で修正を受け取れるわけではなく、複数回の再起動でようやく必要なアップデートができたようです。基本的に「セーフモードでWindowsを起動、問題のあるファイルを削除」方法で対処するしかないのが実情だったのです。

こうしたアクシデントに備え、詳しい技術者やエキスパートに相談できる体制づくりもまた欠かせないと言えるでしょう。