日々のデータセンター運用業務では、業務システムにおいて様々なイベントが発生し、特にアラームに対しては迅速かつ、適切な対応が求められています。一般的には、トラブル発生時の対応手順書を参照しながら、人手で初期対応作業を実施しており、多くの手間と作業ミス発生のリスクを抱えています。
人手で行う初期対応作業は、イベント内容やイベント発生箇所の確認、対処手順が確立されている既知のトラブル事象か否かの確認などの切り分け作業、通報作業、および既知のトラブル事象の場合は対処手順に従った一次対処作業があります。
このトラブル発生時の初期対応テンプレートは、発生したイベントに対応する切り分け作業、通報作業、および一次対処の一連の作業プロセスを運用プロセスの事例として定義したものです。