ページの先頭行へ戻る
Systemwalker Network Manager 使用手引書

10.2.2 トラブル発生時の情報収集について

Systemwalker Network Managerでトラブルが発生した際に行うべき情報収集、対処方法について説明します。

10.2.2.1 作業フロー

Systemwalker Network Managerに何らかの障害が発生した際は、以下に示すフローに従って、情報収集、対処を行って下さい。

トラブル発生

運用管理サーバのデータを収集する
10.2.2.2.1 運用管理サーバのデータ収集

運用管理クライアントのデータを収集する
10.2.2.2.2 運用管理クライアントのデータ収集

ソフトウェアの調査を行う
10.2.2.3 ソフトウェアの調査

プロセスを再起動する
10.2.2.4 プロセスの再起動

運用管理サーバを再起動する
10.2.2.5 運用管理サーバの再起動

10.2.2.2 一次解析データの収集

運用管理サーバおよび運用管理クライアントから、一次解析データを収集します。

注意

  • 一次解析データは運用管理サーバの再起動などにより失われたり変化したりしますので、必ず最初に収集を行って下さい。

10.2.2.2.1 運用管理サーバのデータ収集

インストール/アンインストール中や運用中に障害が発生した場合は、以下の手順に従って、一次解析データを収集して下さい。

1.  運用管理サーバのコンソール上に、スーパーユーザでログインして下さい。

2.  nmcollectlogを実施します。コマンドの詳細は8.2.5 nmcollectlog(システムログ収集)を参照して下さい。

# cd /opt/systemwalkerNM
# ./nmcollectlog

3.  以下のメッセージが表示されると、ログ収集完了です。

LOGFILE=×××××××
Collecting logs ended.

4.  分散構成で運用している場合は、全ての運用管理サーバ(エージェント)で「1.」~「3.」の手順を繰り返し行います。

表10.1 収集データ一覧

解析用データ

概要

収集場所

trace.tar.Z

ネット制御/稼動監視のトレース

問題発生の運用管理サーバおよび運用管理サーバ(エージェント)  ※3

ps.log

プロセスの稼動状態

同上

swap_l.log

スワップの使用状況

同上  ※1

swap_s.log

スワップの使用状況

同上  ※1

swapon.log

スワップの使用状況

同上  ※2

vmstat.log

メモリ使用状況

同上

df.log

ディスク使用状況

同上

netstat.log

socket使用状況

同上

etc.tar.Z

環境定義ファイル

同上  ※3

var_db_csv.tar.Z

ネット制御/稼動監視の構成情報・ポリシー設定内容

同上  ※3

var_custom_param.tar.Z

ネット制御/稼動監視で適用されているパラメタファイル

同上  ※3

var_db_data.tar.Z

サーバ定義・監視パラメタの設定内容

同上  ※3

messages.tar.Z

シスログ

同上  ※3

services

ポート番号使用状況

同上

collectlog.tar.gz

トポロジベース部のトレース

同上

showproc.txt

トポロジベース部稼動状態

同上

nmcollectlog.tar

インストール、アンインストール、環境設定ログ

同上

topocollectlog.tar

トポロジ探索部ログ

同上

core_trace.tar.gz

トポロジベース部のトレース

同上

key

IPCキー使用状況

同上

free.log

メモリ使用状況

同上  ※2

※1:Solaris版のみ収集される情報です。
※2:Linux版のみ収集される情報です。
※3:Linux版では拡張子がtar.gzとなります。

10.2.2.2.2 運用管理クライアントのデータ収集

解析用データ

概要

収集場所

運用管理クライアントのインストールディレクトリ¥client_root¥out.log

運用管理クライアントのログ

問題発生したすべての運用管理クライアントでデータを収集します。

10.2.2.3 ソフトウェアの調査

一次解析データの収集後、Systemwalker Network Managerの動作状況を調査します。

以下にソフトウェアの調査方法を説明します。

1.  運用管理サーバへログインします。

2.  運用管理サーバの状態確認を行います。

参考

10.2.2.3.1 運用管理サーバへのログイン

telnetクライアントソフトを使用して、運用管理サーバにログインします。

telnet接続の場合

以下にtelnet接続でソフトウェアの調査を行う方法を説明します。

1.  運用管理サーバのIPアドレスを接続先として、ターミナルソフトウェアを起動します。

2.  “vvsrv”アカウントでログインします。

3.  ログインに成功した場合は、続けて10.2.2.3.2 運用管理サーバの状態確認を行って下さい。

コンソール接続の場合

以下にtelnet接続でソフトウェアの調査を行う方法を説明します。

1.  運用管理サーバのシリアルポートを指定し、ターミナルソフトウェアを起動します。接続に失敗する場合は、シリアルポート指定を確認し再度接続し直して下さい。

2.  10.2.2.3.2 運用管理サーバの状態確認を行って下さい。

10.2.2.3.2 運用管理サーバの状態確認

運用管理サーバ上で、“vvsrv”アカウントでshowproc.cshを実行し、コンポーネントのサービス情報を表示して下さい。以下にサービス情報の表示例を示します。

vvsrv@hostname% showproc.csh

Service Status of hostname

Server:hostname
       ServiceName Status ProcID
-----------------------------------------------------
       VLANDirector In Service 25486
       ChgPasswd In Service 24029
       Login In Service 24032
       EAM_Ethernet In Service 24706
       ServiceManager In Service 24320
・・・・・・・・・・・・・( 途中省略 )・・・・・・・・・・・・・
       query In Service 23824
       DiscoverNode In Service 23975
       EAM_SIR3400_1 In Service 24650
       EAM_HOST In Service 24691
       faultdsp In Service 24304
       EAM_Catalyst4900GL3_1 In Service 25171
       NWDBEdit In Service 23997
       EditView In Service 24244

vvsrv@hostname%

出力されるサービス情報から運用管理サーバの稼動状況をコンポーネントごとに確認できます。正常時はすべてのサービスがIn Serviceです。以下の表にコンポーネントのStatusとその意味を示します。

表10.2 運用管理サーバ状態確認結果一覧

Status

レベル

コンポーネントの状態

対処

In Service

正常

正常に動作している状態です。表示されるコンポーネントがすべてIn Serviceになっている場合は、システムは正常に稼動しています。

特に必要ありません。

No Response

注意

Statusをコンポーネントに問い合わせたが応答がありませんでした。障害が多発した場合や処理中の場合には、このStatusが表示されます。

再度10分後に状態確認を実施して下さい。それでもNo Responseであった場合には、システムの再起動を行う必要があります。
再起動手順は、10.2.2.4 プロセスの再起動を参照して下さい。

Out of Service

障害

このコンポーネントは終了しています。

システムの再起動を行う必要があります。
再起動手順は、10.2.2.4 プロセスの再起動を参照して下さい。

Error

障害

このコンポーネントはエラーになっています。

システムの再起動を行う必要があります。
再起動手順は、10.2.2.4 プロセスの再起動を参照して下さい。

10.2.2.4 プロセスの再起動

ソフトウェアの調査を行った後で、運用管理サーバで運用を開始する場合は、まず運用管理サーバのプロセスを再起動します。

10.2.2.4.1 再起動

以下の手順に従ってプロセスの再起動を行って下さい。

1.  運用管理サーバのコンソール上に、スーパーユーザでログインして下さい。

2.  プロセス停止

# cd /opt/systemwalkerNM
# ./stopnm

3.  以下のメッセージが表示されると、プロセス停止完了です。

Stopping "Systemwalker Network Manager" ended.

4.  プロセス起動

# ./startnm

5.  起動確認

起動終了後、showproc.cshを実行し、コンポーネントのサービス情報のstatusがすべてIn Serviceになっていることを確認して下さい。In Serviceに変化しない場合には、10.2.2.5 運用管理サーバの再起動を参照して運用管理サーバの再起動を行って下さい。

注意

  • クラスタシステムを構築している場合のプロセスの再起動は、“ Systemwalker Network Manager クラスタ運用ガイド”を参照して下さい。

10.2.2.5 運用管理サーバの再起動

プロセスの再起動を行っても運用管理サーバが正常に起動しない場合は、以下の手順に従って運用管理サーバの再起動を行って下さい。

10.2.2.5.1 再起動

以下の手順に従って、運用管理サーバの再起動を行って下さい。

1.  一次解析データの収集が完了していることを確認します。一次解析の詳細については10.2.2.2 一次解析データの収集を参照して下さい。

2.  運用管理サーバのコンソール上に、スーパーユーザでログインして下さい。

3.  プロセス停止

# cd /opt/systemwalkerNM
# ./stopnm

4.  以下のメッセージが表示されると、プロセス停止完了です。

Stopping "Systemwalker Network Manager" ended.

5.  運用管理サーバの再起動

[Solarisの場合]

# /usr/sbin/shutdown -y -i6

[Linuxの場合]

# /sbin/shutdown -r now

6.  起動確認

起動終了後、showproc.cshを実行し、コンポーネントのサービス情報のstatusがすべてIn Serviceになっていることを確認して下さい。

7.  運用管理クライアントからの確認

運用管理クライアントからSystemwalker Network Managerが起動することを確認して下さい。