ブルースクリーンなど大規模障害発生への備えは

7月中旬に発生したセキュリティベンダーによる更新プログラムの不具合発生事態。
世界各地で数百万台のWindowsOS搭載デバイスにブルースクリーン(深刻なエラー発生時の青い画面)が表示され、業務進行に深刻な事態を生じさせたことは記憶に新しいもの。

こうした大規模な障害を引き起こす「ハイリスク」が業務の身近にあることを認識しておくべきことは経営者や責任者の責務。
今回のシステム障害発生問題から何を学び、今後こうした事態に備えた対策や取り組みに生かせるかが重要となってくるのです。

ソフトウェアやシステムの実態

ソフトウェアやシステムの欠陥自体は珍しいことではありません、やはり人間が作るものに完璧なものはなく、どんなに改善やテストに取り組んでいたとしても「ゼロ」にするのが難しいのは当然のこと。今後も同様の事態の発生が続くことが予見できます。そのためベンダー側はユーザー企業に自社製品やサービスがどのような不具合対策を講じているか分かりやすく示し、ユーザーの不安を鎮め、リスク対策への優先順位付けと軽減策を打ち出してくるはずです。復旧を進めるのが重要なのと同様、次の不具合発生に備えた動きが肝なのです。

そこで重要となってくる要素が、自社におけるIT運用の改善やインフラ整備への取り組み。重要インフラ施設で使われていたり、これまでどんなに高い評価や信頼を得ていたソフトウェアやアプリケーション、ツールであっても不具合や障害の発生は絶対にないと断言できるものは何もありません。

重要なITサービス運用を少数や単一のベンダーだけに依存せず、リスクマネジメントやリスク分散の観点から複数のベンダーから調達するといったことも対策になりえます。
システム障害発生への対処において有名なリスクヘッジのセオリーが「全ての卵を1つのかごに積まない」こと。サイバー攻撃や人的ミス、何らかの原因によるシステム障害と言ったリスクの低減につながることが証明されています。

また自社ビジネスとベンダーとの依存関係に潜む脆弱性やリスクを定量的に分析、破壊的インシデントに対する自社のレジリエンス機能を強化すべきタイミングと言えるでしょう。

対策のまとめ

ベンダー側もユーザーをランサムウェア等のマルウェアによるサイバー攻撃から保護すべく、製品開発やアップデートを頻繁に実施すべきという強いプレッシャーを受けており、今回の障害発生はセキュリティツールの自動アップデートによる不具合が大きなシステム障害を引き起こしたことが判明しています。

やはりユーザーが被害を最低限に防ぐには、ソフトウェアのアップデート時に「段階的アプローチ」をとれるかがポイント。これは、アップデート適用前にサンドボックス環境や一部デバイスを用いて事前にアップデートが有効かを検証させることを指します。重要なセキュリティツールには段階的アプローチを採用すべきタイミングと言えるでしょう。

また重要インフラ等を運用している場合などは特にシステム冗長性の確保や障害ドメイン(障害の影響範囲)を適切に分離して管理すべきです。IT資産及びソフトウェア資産管理に注意を払い、事業継続計画(BCP)/災害復旧(DR)を優先します。策定したBCP/DRの定期的なテストや検証などの見直しも不可欠と言えます。