BCP対策とは?その目的や策定方法、注意点などを解説
地道なインシデント記録が重要なポイント!
ISO/IEC 20000に基づくインシデント管理を解説
FOR BUSINESS
課題解決のためのノウハウ
こんにちは、STNetの加村です。データセンター「Powerico(パワリコ)」のデータセンター運用業務の全体管理を担当しています。
多くの業界で業務のIT化が進んでいる近年では、IT関連企業だけでなくあらゆる企業において、「インシデント」というフレーズが重要視されています。インシデントとは、出来事、事件といったことを意味しますが、ITサービスにおいては、サービス品質の低下を引き起こす可能性のある事象や障害のことを指します。信頼される企業であり続けるためにも、インシデントに対する意識を明確に持つことが重要です。一方で、インシデント管理のポイントを正しく理解し、適切な対応プロセスを設けられていないという企業も多くあるでしょう。
本コラムでは、インシデント管理の対応プロセスやポイントをご紹介します。また、ITサービスの管理を効率的、効果的に行う仕組みに関する国際規格「ISO/IEC 20000」に基づいたインシデント記録がいかに重要かについても解説します。
インシデント管理とISO/IEC 20000とは
まず、インシデントとは何を指すのか、そしてインシデント管理とは具体的に何なのかを押さえておきましょう。
インシデント管理とは
冒頭でも触れたように、インシデントは「出来事」「事件」を指します。ITの分野では、「不具合の有無にかかわらずユーザーからの問い合わせがあったこと」も含め、「システムのアラートによる検出」や「システムが正常に使えない事象」などサービス品質の低下を引き起こす可能性のある幅広い事象をインシデントと呼ぶと理解すればよいでしょう。
「インシデント管理」はこうした事象が起こった際に、迅速かつ効果的に対処し、正常な状態に戻すためのマネジメントを意味します。
なお、似た言葉にアクシデントがありますが、アクシデントは実際の被害が生じるような重大な事故のことです。アクシデントにつながるリスクがある出来事、一歩手前の事象をインシデントと呼びます。
ISO/IEC 20000の概要と策定の背景
インシデント管理を行うにあたって特に参照しておきたいものに、ISO/IEC 20000があります。これは、ITサービスマネジメントシステム(ITSMS)に関する国際規格です。
ITSMSとは、ITを活用したサービスの品質を確保し、顧客満足度を向上するため、適切にマネジメントする仕組みを意味します。
電子マネーによる決済やリモートワークの普及など、近年、社会におけるITサービスの重要性はますます高まっています。ISO/IEC 20000策定の背景には、ユーザーの期待に応え、ITサービス品質の向上とサービス提供プロセスの透明性を重視する必要性があったと言えます。
ISO/IEC 20000では、ITサービスを効率的に管理するための具体的なプロセスが定められており、客観的な指標を通じた評価ができるため、現状の可視化や継続的なサービス品質の維持・向上に有効です。冒頭でも述べたように、このプロセスのなかにはインシデント管理に関する具体的なプロセスも含まれています。次章でより詳しく見ていきましょう。
企業のインシデント管理と同時に備えておきたいBCP対策については「BCP対策とは?その目的や策定方法、注意点などを解説」「BCP対策成功のポイントはシステムのバックアップサイトへの切替えにあり!」をご覧ください。
インシデント管理(ISO/IEC 20000に準拠)の対応プロセス
当社では、ISO/IEC 20000を取得し、ITサービスの管理を効率的、効果的に実施しています。お客さまに高い品質でITサービスを提供するうえで、ISO/IEC 20000に基づいたインシデント管理が非常に重要となります。
インシデント管理の主な目的と、一般的な対応プロセスについて見ていきましょう。
目的
インシデント管理の目的としては、以下のような3つの項目があります。
(1)迅速な復旧
インシデントが発生した場合、迅速にサービスやシステムを正常な状態に戻すことを最優先とします。ユーザーへの影響とサービス提供の中断を最小限にすることが求められます。
(2)業務影響の最小化
インシデントが業務に与える影響を最小限に抑えるために、適切な対応が必要です。これには、迅速な復旧だけでなく、ユーザーとのコミュニケーションや代替策の提供なども含まれます。
(3)改善策の検討
システムが復旧したあと、インシデントが発生した原因を分析し、再び同様の問題が発生することを防ぐための改善策を講じることが重要です。
そして、(1)~(3)の対応の記録をナレッジベース(過去のインシデント対応記録や業務に関するノウハウの置き場)として蓄積していくことも、インシデント管理の目的といえます。
対応プロセス
インシデント管理の対応プロセスの流れは下記のとおりです。
(1)インシデントの検出・記録
インシデント管理の開始は、ユーザーのシステム利用を妨げるインシデントの検出からです。インシデントの検出は、ユーザーからのメールや電話での問い合わせ、システムからのアラート検知によって認識可能です。インシデントを検出したら、その内容を記録します。記録した内容は、今後の対応で活用することもあるため、ユーザーの問い合わせ内容やシステムのアラートメッセージなど、インシデントの状況について正確に記録しておく必要があります。
(2)インシデントの分類・優先度設定
インシデントを検出したあと、インシデントを以下の3つの基準で分類していきます。
例:システムにログイン不可、サーバーに接続不可など
-サービス要求(これをしてほしいというユーザーからの要求)
例:ログインパスワードの失念や失効による再発行依頼
(ウ)緊急度
インシデントは「障害回復要求」と「サービス要求」の2種類のいずれかに分類されます。そのほかにも、想定される影響の対象や範囲、緊急度を考慮し、インシデント対応の優先度を決めていきます。
(3)インシデントへの対応・解決
インシデントの対応優先度が決まったら、解決に向けた対応を実施します。インシデントが、情報照会や問い合わせなどの確立した対応手順で解決できるものであったり、過去に発生したのと同様であれば、ナレッジベースを活用し、対応を進めます。
(4)エスカレーションによるインシデントの解決
(3)の対応・解決方法ではインシデントの解決が困難である場合、専門知識を持ったエンジニアやベンダーへエスカレーションして、インシデントの解決を試みます。
(5)インシデントのクローズ(完了)
インシデントが解決し、ユーザーが業務を再開できるようになったら、ユーザーに最終報告を行い、インシデントはクローズとなります。
インシデント管理(ISO/IEC 20000に準拠)のポイント
効率的で効果的なインシデント管理のポイントとなるのは、インシデント記録とそれを用いたナレッジベースの活用です。ここではこの2つについて解説します。
1. インシデント記録とは
ここまで、インシデント管理の重要性や目的、対応プロセスについて解説しました。インシデント管理において重要となるのがインシデント記録です。インシデント記録は、特定の出来事や事故、問題、エラー、障害、または異常な状況に関する情報を文書化したものです。インシデント記録では、これらの情報を、統一された様式で記録し、読み手に正しい情報が伝わることが重要です。正しい情報が伝わらなければ、ナレッジを活用した効果的なインシデント対応はできません。そのため、特に表記の統一に気を使う必要があります。以下に例を挙げましょう。
- 文言や表記を統一して記載する
例:“データセンター”、“DC”など表記方法を統一し、変更しない
- 英語表記の略語など誤解を生じる可能性のある言葉を用いず、誰が見ても明確な言葉を使用する
例:PC→パソコン、NW→ネットワーク
- お客さまは「○○さま」、自社担当者は「○○氏」「○○部長」のように、敬称を統一して記載する
- 主語を明記する
例:× LANケーブルを接続する
〇 現地作業員がLANケーブルを接続する - 「誰」から「誰」への対応依頼なのか明確に記載する
例:田中さま→鈴木氏
- お客さまの作業ごとに、インシデント記録用の雛型を利用して記載する
- 対応完了であることを明確にするために、「対応完了」と記載する
実際に、当社ではインシデント管理の記載ルールに基づき、「対応状況を正確に関係者と共有する」という意識のもと記録をしています。
インシデント記録に含めるべき重要な情報としては、以下のような項目があります。
- 日付と時間
インシデントが発生した具体的な日時を記録します。これにより、出来事のタイムラインを把握できます。
- 場所
インシデントが発生した場所を詳細に記録します。場所には、物理的な場所だけでなく、デジタル環境における場所(例:サーバー、データベース)も含まれます。
- 関与した人物
インシデント対応に関与した人々の名前、役職、連絡先などの詳細を記録します。
- インシデントの説明
インシデントの具体的な内容、何が起こったのか、何がどんな影響を受けたのか、詳細に記載していきます。この説明は、関係者に誤解なく伝わるよう明確に記載する必要があります。
- 影響
インシデントが引き起こした影響や被害について記録します。例えばシステムの停止、データの損失、サービスの中断など、具体的な影響を指します。
- 原因の特定
インシデントが発生した原因や要因を特定し、詳細に記録します。例えば、技術的な問題、人為的なエラー、システムの不具合などが含まれます。
- 対応措置
インシデントに対する即時対応措置や修復策を記録します。どのような即時措置が取られ、問題の解決に向けてどのようなアクションが取られたかを明確に記録します。
- 関連文書やエビデンス
インシデントに関連する文書、ログ、スクリーンショット、エラーメッセージなどエビデンスとなるものを記録し保管しておきます。これにより、あとでインシデントの調査や分析を正確に行うことができます。
2. インシデント記録を用いたナレッジベースの活用
インシデント記録について解説してきましたが、インシデントを記録するだけでは業務に活用できません。インシデント記録を分析、研究することによってノウハウや経験を形として蓄積し、これを関係者間で共有・活用することで、効率化や生産性の向上、属人化防止、さらにはお客さま対応の品質向上に貢献することができます。このような業務改善効果を得るために、インシデント記録をナレッジベースに登録し、情報を管理できる仕組みづくりが重要です。ナレッジベースの活用効果としては、以下のような項目があります。
(1)インシデント対応の効率化や生産性の向上
過去に対応したインシデント情報がナレッジベースに蓄積されているため、類似のインシデントが発生した場合には迅速に対応できます。過去にどのように対応したかについて、人の記憶に頼ったり、誰かに確認したりする手間を削減でき、対応者の生産性向上や業務効率化に貢献します。
(2)インシデント対応における属人化防止
ナレッジベースで業務対応を共有することで、「この業務は特定の人しか対応できない」といった属人化を防ぎます。「Aさんが対応しても、Bさんが対応しても同じ品質」で業務遂行することが可能です。また、病気や緊急時での人員交代の場合や、業務経験が浅いメンバーが対応する場合でも、スムーズな引き継ぎと業務継続が可能となります。
(3)お客さま対応の向上
お客さま対応においてもナレッジベースは役立ちます。お客さまからの問い合わせやトラブルに対する品質のよい迅速な対応が可能となります。
実際に、当社ではお客さまの影響が大きいインシデントが発生するたび、部門内メンバーで内容の振り返りや対応策について議論しています。その後、他部門へも情報を共有し連携することで、類似インシデントが発生した際のナレッジとして活用できるよう工夫しています。
まとめ
本コラムでは、インシデント管理の対応プロセスやポイントについて解説しました。
迅速な復旧、業務影響の最小化、改善策の検討のためにインシデント管理が重要であり、インシデント記録がポイントになることをご理解いただけたのではないでしょうか。
ISO/IEC 20000に基づいた、インシデント管理の核になるインシデント記録は、正確に根気強く作成し続けなければなりません。地味で大変な作業ではありますが、正確な記録がナレッジベースの情報源となり、以降の改善策検討のための重要なポイントとなります。
信頼される企業であり続けるためにもぜひ、丁寧なインシデント管理に取り組んでいただければと思います。
本コラムが、インシデント管理に対して興味関心をお持ちの方の参考になれば幸いです。
執筆者
株式会社STNet データセンターサービス部
新高松データセンターサービス第2課
加村 直也
2019年よりデータセンター「Powerico(パワリコ)」のシステム運用業務に従事。
データセンターの業務用基幹ネットワーク/サーバー環境や監視システムの
運用管理が主な担当。システムの老朽化対策や信頼性向上に向けたリプレイス対応、
システム運用における課題対応や品質改善に取り組んできた。
2023年より、データセンター運用業務の全体管理に従事。データセンター要員の業務調整や
業務スケジュールの管理が主な担当。スタッフの業務状況や対応能力を考慮して、
スタッフが円滑に業務対応できるよう、課題対応や品質改善に取り組んでいる。
※このプロフィールは執筆時点のものです。