GPUサーバーとは?GPUサーバーのメリットや高密度サーバーのデータセンター運用のポイントを解説

課題解決のためのノウハウ
こんにちは、STNetの加村です。データセンター「Powerico(パワリコ)」のデータセンター運用業務の全体管理を担当しています。
多くの業界で業務のIT化が進んでいる近年では、IT関連企業だけでなくあらゆる企業において、「インシデント」というフレーズが重要視されています。インシデントとは、出来事、事件といったことを意味しますが、ITサービスにおいては、サービス品質の低下を引き起こす可能性のある事象や障害のことを指します。信頼される企業であり続けるためにも、インシデントに対する意識を明確に持つことが重要です。一方で、インシデント管理のポイントを正しく理解し、適切な対応プロセスを設けられていないという企業も多くあるでしょう。
本コラムでは、インシデント管理の対応プロセスやポイントをご紹介します。また、ITサービスの管理を効率的、効果的に行う仕組みに関する国際規格「ISO/IEC 20000」に基づいたインシデント記録がいかに重要かについても解説します。
まず、インシデントとは何を指すのか、そしてインシデント管理とは具体的に何なのかを押さえておきましょう。
冒頭でも触れたように、インシデントは「出来事」「事件」を指します。ITの分野では、「不具合の有無にかかわらずユーザーからの問い合わせがあったこと」も含め、「システムのアラートによる検出」や「システムが正常に使えない事象」などサービス品質の低下を引き起こす可能性のある幅広い事象をインシデントと呼ぶと理解すればよいでしょう。
「インシデント管理」はこうした事象が起こった際に、迅速かつ効果的に対処し、正常な状態に戻すためのマネジメントを意味します。
なお、似た言葉にアクシデントがありますが、アクシデントは実際の被害が生じるような重大な事故のことです。アクシデントにつながるリスクがある出来事、一歩手前の事象をインシデントと呼びます。
インシデント管理を行うにあたって特に参照しておきたいものに、ISO/IEC 20000があります。これは、ITサービスマネジメントシステム(ITSMS)に関する国際規格です。
ITSMSとは、ITを活用したサービスの品質を確保し、顧客満足度を向上するため、適切にマネジメントする仕組みを意味します。
電子マネーによる決済やリモートワークの普及など、近年、社会におけるITサービスの重要性はますます高まっています。ISO/IEC 20000策定の背景には、ユーザーの期待に応え、ITサービス品質の向上とサービス提供プロセスの透明性を重視する必要性があったと言えます。
ISO/IEC 20000では、ITサービスを効率的に管理するための具体的なプロセスが定められており、客観的な指標を通じた評価ができるため、現状の可視化や継続的なサービス品質の維持・向上に有効です。冒頭でも述べたように、このプロセスのなかにはインシデント管理に関する具体的なプロセスも含まれています。次章でより詳しく見ていきましょう。
企業のインシデント管理と同時に備えておきたいBCP対策については「BCP対策とは?その目的や策定方法、注意点などを解説」「BCP対策成功のポイントはシステムのバックアップサイトへの切替えにあり!」をご覧ください。
当社では、ISO/IEC 20000を取得し、ITサービスの管理を効率的、効果的に実施しています。お客さまに高い品質でITサービスを提供するうえで、ISO/IEC 20000に基づいたインシデント管理が非常に重要となります。
インシデント管理の主な目的と、一般的な対応プロセスについて見ていきましょう。
インシデント管理の目的としては、以下のような3つの項目があります。
(1)迅速な復旧
インシデントが発生した場合、迅速にサービスやシステムを正常な状態に戻すことを最優先とします。ユーザーへの影響とサービス提供の中断を最小限にすることが求められます。
(2)業務影響の最小化
インシデントが業務に与える影響を最小限に抑えるために、適切な対応が必要です。これには、迅速な復旧だけでなく、ユーザーとのコミュニケーションや代替策の提供なども含まれます。
(3)改善策の検討
システムが復旧したあと、インシデントが発生した原因を分析し、再び同様の問題が発生することを防ぐための改善策を講じることが重要です。
そして、(1)~(3)の対応の記録をナレッジベース(過去のインシデント対応記録や業務に関するノウハウの置き場)として蓄積していくことも、インシデント管理の目的といえます。
インシデント管理の対応プロセスの流れは下記のとおりです。
(1)インシデントの検出・記録
インシデント管理の開始は、ユーザーのシステム利用を妨げるインシデントの検出からです。インシデントの検出は、ユーザーからのメールや電話での問い合わせ、システムからのアラート検知によって認識可能です。インシデントを検出したら、その内容を記録します。記録した内容は、今後の対応で活用することもあるため、ユーザーの問い合わせ内容やシステムのアラートメッセージなど、インシデントの状況について正確に記録しておく必要があります。
(2)インシデントの分類・優先度設定
インシデントを検出したあと、インシデントを以下の3つの基準で分類していきます。
効率的で効果的なインシデント管理のポイントとなるのは、インシデント記録とそれを用いたナレッジベースの活用です。ここではこの2つについて解説します。
ここまで、インシデント管理の重要性や目的、対応プロセスについて解説しました。インシデント管理において重要となるのがインシデント記録です。インシデント記録は、特定の出来事や事故、問題、エラー、障害、または異常な状況に関する情報を文書化したものです。インシデント記録では、これらの情報を、統一された様式で記録し、読み手に正しい情報が伝わることが重要です。正しい情報が伝わらなければ、ナレッジを活用した効果的なインシデント対応はできません。そのため、特に表記の統一に気を使う必要があります。以下に例を挙げましょう。
例:“データセンター”、“DC”など表記方法を統一し、変更しない
例:PC→パソコン、NW→ネットワーク
例:× LANケーブルを接続する
〇 現地作業員がLANケーブルを接続する
例:田中さま→鈴木氏
実際に、当社ではインシデント管理の記載ルールに基づき、「対応状況を正確に関係者と共有する」という意識のもと記録をしています。
インシデント記録に含めるべき重要な情報としては、以下のような項目があります。
インシデントが発生した具体的な日時を記録します。これにより、出来事のタイムラインを把握できます。
インシデントが発生した場所を詳細に記録します。場所には、物理的な場所だけでなく、デジタル環境における場所(例:サーバー、データベース)も含まれます。
インシデント対応に関与した人々の名前、役職、連絡先などの詳細を記録します。
インシデントの具体的な内容、何が起こったのか、何がどんな影響を受けたのか、詳細に記載していきます。この説明は、関係者に誤解なく伝わるよう明確に記載する必要があります。
インシデントが引き起こした影響や被害について記録します。例えばシステムの停止、データの損失、サービスの中断など、具体的な影響を指します。
インシデントが発生した原因や要因を特定し、詳細に記録します。例えば、技術的な問題、人為的なエラー、システムの不具合などが含まれます。
インシデントに対する即時対応措置や修復策を記録します。どのような即時措置が取られ、問題の解決に向けてどのようなアクションが取られたかを明確に記録します。
インシデントに関連する文書、ログ、スクリーンショット、エラーメッセージなどエビデンスとなるものを記録し保管しておきます。これにより、あとでインシデントの調査や分析を正確に行うことができます。
インシデント記録について解説してきましたが、インシデントを記録するだけでは業務に活用できません。インシデント記録を分析、研究することによってノウハウや経験を形として蓄積し、これを関係者間で共有・活用することで、効率化や生産性の向上、属人化防止、さらにはお客さま対応の品質向上に貢献することができます。このような業務改善効果を得るために、インシデント記録をナレッジベースに登録し、情報を管理できる仕組みづくりが重要です。ナレッジベースの活用効果としては、以下のような項目があります。
本コラムでは、インシデント管理の対応プロセスやポイントについて解説しました。
迅速な復旧、業務影響の最小化、改善策の検討のためにインシデント管理が重要であり、インシデント記録がポイントになることをご理解いただけたのではないでしょうか。
ISO/IEC 20000に基づいた、インシデント管理の核になるインシデント記録は、正確に根気強く作成し続けなければなりません。地味で大変な作業ではありますが、正確な記録がナレッジベースの情報源となり、以降の改善策検討のための重要なポイントとなります。
信頼される企業であり続けるためにもぜひ、丁寧なインシデント管理に取り組んでいただければと思います。
本コラムが、インシデント管理に対して興味関心をお持ちの方の参考になれば幸いです。
株式会社STNet データセンターサービス部
新高松データセンターサービス第2課
加村 直也
2019年よりデータセンター「Powerico(パワリコ)」のシステム運用業務に従事。
データセンターの業務用基幹ネットワーク/サーバー環境や監視システムの
運用管理が主な担当。システムの老朽化対策や信頼性向上に向けたリプレイス対応、
システム運用における課題対応や品質改善に取り組んできた。
2023年より、データセンター運用業務の全体管理に従事。データセンター要員の業務調整や
業務スケジュールの管理が主な担当。スタッフの業務状況や対応能力を考慮して、
スタッフが円滑に業務対応できるよう、課題対応や品質改善に取り組んでいる。
※このプロフィールは執筆時点のものです。