3.2.4 トラブル発生時にシステムを調査する

ダッシュボードテンプレートの[トラブル調査ダッシュボード]を利用し、トラブル原因を調査する例について説明します。

[トラブル調査ダッシュボード]を表示する

以下の手順で[トラブル調査ダッシュボード]を表示し、データの表示範囲を設定します。

[トラブル調査ダッシュボード]を表示します。
ITサービス管理のチケット画面に表示されている[トラブル調査ダッシュボードを開く]のURLをクリックしても表示できます。
データの時刻の表示範囲として、トラブル発生日時の前後数日の期間を設定します。
設定方法については、「3.1.3 表示するデータの時刻の範囲を設定する」を参照してください。

トラブルの原因を調査する

以下の方法でトラブルの原因調査を行います。

トラブル発生時の運用データの概要を確認します。
以下を確認します。
- トラブル発生日時の前に変更作業を実施していないか
  [変更要求チケット数(作業開始日時)]ウィジェットでチケット数を確認し、[変更要求チケット一覧]ウィジェットで変更内容を確認します。
- トラブル発生日時付近にインシデント(監視)が発生していないか
  [インシデント(監視)発生数] ウィジェットで発生数を確認し、[インシデント(監視)一覧]ウィジェットで内容を確認します。
- トラブル発生前後で性能データの傾向に変化がないか
  以下のウィジェットで、変更実施前後の傾向を確認します。
  - [CPU使用率(%)]
  - [メモリ空き容量(MB)]
  - [ディスクI/O(IO/sec)]
  - [ディスクスループット(MB/sec)]
手順1で事象が発生していることを確認した場合は、変更作業が影響している可能性があるため、詳細な情報を確認します。
以下を確認します。
- トラブル発生日時の前に行った変更作業の詳細
  [要求チケット一覧]ウィジェット上のTICKET#のリンクから、チケットの内容を確認します。
  リンクは、右クリックで表示されるメニューなどで新しいタブまたは新しいウィンドウで開いてください。
- トラブル発生日時付近に発生したインシデント(監視)の詳細
  [インシデント(監視)一覧]ウィジェット上のTICKET#のリンクから、チケットの内容を確認します。
  リンクは、右クリックで表示されるメニューなどで新しいタブまたは新しいウィンドウで開いてください。
- 性能データのいつもの傾向との違い
  [ホスト名一覧]ウィジェット上のホスト名のリンクをクリックし、いつもとの違いを確認します。
  リンクをクリックすると、対象サーバで絞り込まれた[リソース詳細分析ダッシュボード]の画面が表示されます。
より詳細な調査が必要な場合は、調査結果や見解、ダッシュボードの画面を共有したURLをITサービス管理のチケットに記入し、業務開発/インフラ保守担当へ回送します。ダッシュボードの画面を共有する方法については、「3.1.5 ダッシュボード画面を共有する」を参照してください。

[トラブル調査ダッシュボード]のウィジェット一覧

対象となるデータは、ITサービス管理のインシデント(監視)チケットと変更要求チケット、Systemwalker Service Quality Coordinator が収集したリソース性能データです。

[ ]内の用語はITサービス管理のチケットの項目名です。

ウィジェット名	ウィジェットの種類	説明
変更要求チケット数(作業開始日時)	Vertical Bar (棒グラフ)	[開始日時(実績)]ごとのチケット数を表示します。[開始日時(実績)]が入力されていない場合は、[開始日時(予定)]で表示します。チケット数が多い順に最大5サーバ表示します。 (注1)
変更要求チケット一覧	Data Table (表)	変更要求チケットの一覧をTICKET#の降順に1ページ3件まで表示します。チケット数が4件以上の場合、下部にページ番号が表示されます。表示されるチケット数の上限は1000件です。表の項目は以下です。TICKET#は、ITサービス管理のWebコンソールの該当チケットへのリンクです。タイトルは32文字より長い場合は切り詰められて表示されます。 TICKET# [サービス] [ホスト名] [タイトル] (注1)
インシデント(監視)発生数	Vertical Bar (棒グラフ)	[発生日時]ごとのチケット数を表示します。[発生日時]が入力されていない場合は、チケットの[作成日時]で表示します。チケット数が多い順に最大5サーバ表示します。 (注2)
インシデント(監視)一覧	Data Table (表)	インシデント(監視)チケットの一覧をTICKET#の降順に1ページ3件まで表示します。チケット数が4件以上の場合、下部にページ番号が表示されます。表示されるチケット数の上限は1000件です。表の項目は以下です。TICKET#は、ITサービス管理のWebコンソールの該当チケットへのリンクです。 TICKET# [サービス] [発生元サーバホスト名] [タイトル] (注2)
CPU使用率(%)	Line (折れ線グラフ)	CPU使用率の値が大きい順に最大5サーバ表示します。 (注3)
メモリ空き容量(MB)	Line (折れ線グラフ)	メモリ空き容量の値が小さい順に最大5サーバ表示します。 (注3)
ディスクI/O(IO/sec)	Line (折れ線グラフ)	ディスクI/Oの値が大きい順に最大5サーバ表示します。 (注3)
ディスクスループット(MB/sec)	Line (折れ線グラフ)	ディスクスループットの値が大きい順に最大5サーバ表示します。 (注3)
ホスト名一覧	Data Table (表)	Systemwalker Service Quality Coordinatorが収集した性能データのホスト名の一覧を、ホスト名の昇順に1ページ15件まで表示します。ホスト名が16件以上の場合、下部にページ番号が表示されます。表示されるホスト名の上限は1000件です。表の項目は以下です。ホスト名は、該当サーバの[リソース詳細分析ダッシュボード]へのリンクです。ホスト名性能データ数 (注3)(注4)

[リソース詳細分析ダッシュボード]のウィジェット一覧

対象となるデータはSystemwalker Service Quality Coordinator が収集したリソース性能データです。

ウィジェット名	ウィジェットの種類	説明
リソース詳細 - CPU使用率(%)	Timeline (時系列グラフ)	CPU使用率のいつもとの違いを表示します。(注3)(注5)
リソース詳細 - メモリ空き容量(MB)	Timeline (時系列グラフ)	メモリ空き容量のいつもとの違いを表示します。(注3)(注5)
リソース詳細 - ディスクI/O(IO/sec)	Timeline (時系列グラフ)	ディスクI/O(IO/sec)のいつもとの違いを表示します。(注3)(注5)
リソース詳細 - ディスクスループット(MB/sec)	Timeline (時系列グラフ)	ディスクスループット(MB/sec)のいつもとの違いを表示します。(注3)(注5)
リソース詳細分析ダッシュボード：TIPS	Markdown (テキスト)	[リソース詳細分析ダッシュボード]に関するTIPSを説明します。

注1)

ITサービス管理で変更要求チケットを発行している場合にデータが表示されます。

注2)

ITサービス管理が Systemwalker Centric Manager と連携している場合にデータが表示されます。

注3)

Systemwalker Service Quality Coordinator と連携している場合にデータが表示されます。性能データは最大7日間保持されます。

Systemwalker Service Quality CoordinatorのManagerの監視対象からAgentが外れた場合も、そのAgentの性能データは削除されず、最大7日間保持されます。

注4)

ホスト名に以下の文字のどれかが含まれる場合、ホスト名のリンクは使用できません。

! $ , @ '

注5)

以下のメッセージが表示された場合は、性能データがまだ収集されていないため、10～20分程度時間をおいたあとに確認してください。

[timeline_vis] > Timeline request error: undefined Error: in cell #1: OpenSearch index not found: swsqc-*

[timeline_vis] > Timeline request error: undefined Error: in cell #1: OpenSearch index not found: swsqc.stats-*

また、運用分析ダッシュボードのセットアップ後、ウィジェットにいつもとの違いが表示されるまでに最大1日かかる場合があります。