HA クラスタシステムに障害が発生した場合は、調査に必要な以下の情報を、マスタサーバ(プライマリ)およびマスタサーバ(セカンダリ)から収集します。
HA クラスタの調査情報
fjsnap コマンドを使用して、エラー調査に必要な情報を収集します。
「fjsnap コマンドの実行」を参照してください。
システムの調査情報を収集します。
「pclsnapコマンドの実行」を参照してください。
クラッシュダンプ
障害が発生したサーバでクラッシュダンプの採取が可能な場合、サーバの再起動を行う前に手動でクラッシュダンプを採取してください。
OS に依存する障害の場合、クラッシュダンプが有用となります。
クラスタアプリケーションの切替えが完了した後、リソース故障が発生したノードでクラッシュダンプを採取します。
クラッシュダンプの詳細については、「クラッシュダンプ」を参照してください。
障害が再現可能な場合には、障害を再現させる操作方法などの手順をまとめた資料(形式は不問)
参考
障害情報を当社技術員に報告する際は、エラー調査に必要な情報を正確に収集する必要があります。収集した情報は、問題の確認および障害再現の実行のために使用されます。よって、情報が正確でないと、問題の再現および診断に時間がかかってしまうか、それらが不可能となる場合があります。
調査用資料は、マスタサーバ(プライマリ)およびマスタサーバ(セカンダリ)から速やかに収集してください。特に、fjsnap コマンドが収集する情報は、障害の発生後に時間が長く経過すると、必要な情報が失われてしまうことがあるので注意してください。
マスタサーバ(プライマリ)およびマスタサーバ(セカンダリ)に、root 権限でログインします。
各サーバで fjsnap コマンドを実行します。
# /usr/sbin/fjsnap -a output <Enter>
output には、fjsnap コマンドを使用して収集したエラー情報の出力先となる出力ファイル名を指定します。
参照
fjsnap コマンドの詳細については、FJSVsnap パッケージに含まれている README ファイルを参照してください。
参考
エラーメッセージが出力された場合などの通常運用時のトラブルは、トラブル発生時に即座に fjsnap コマンドを実行してください。
システムハング等のため fjsnap コマンドが実行できない場合は、クラッシュダンプを採取してください。その後、シングルユーザーモードで起動し、fjsnap コマンドを実行してください。クラッシュダンプの採取については、「クラッシュダンプ」 を参照してください。
トラブル発生後に、ノードが自動的に再起動してしまった(シングルユーザーモードで起動できなかった)場合や、誤ってマルチユーザーモードで起動してしまった場合にも、fjsnap コマンドを実行してください。
fjsnap コマンドがエラーになる、または fjsnap コマンドが復帰しない等により調査情報が採取できない場合は、クラッシュダンプを採取してください。
マスタサーバ(プライマリ)およびマスタサーバ(セカンダリ)に、root 権限でログインします。
各サーバで pclsnap コマンドを実行します。
# /opt/FJSVpclsnap/bin/pclsnap -a output または -h output <Enter>
-a オプションはすべての詳細情報を収集するため、データが大きくなります。-h オプションを指定すると、クラスタ制御情報のみが収集されます。
output には、pclsnap コマンドを使用して収集したエラー情報の出力先となる出力媒体の特殊なファイル名または出力ファイル名 (/dev/st0 など) を指定します。
ディレクトリを含む出力ファイル名にカレントディレクトリからの相対パスを指定する場合、パスは "./" から始めてください。
参照
pclsnap コマンドの詳細については、FJSVpclsnap パッケージに含まれている README ファイルを参照してください。
参考
エラーメッセージが出力された場合などの通常運用時のトラブルは、トラブル発生時に即座に pclsnap コマンドを実行してください。
システムハング等のため pclsnap コマンドが実行できない場合は、クラッシュダンプを採取してください。その後、シングルユーザーモードで起動し、pclsnap コマンドを実行してください。クラッシュダンプの採取については、「クラッシュダンプ」 を参照してください。
トラブル発生後に、ノードが自動的に再起動してしまった(シングルユーザーモードで起動できなかった)場合や、誤ってマルチユーザーモードで起動してしまった場合にも、pclsnap コマンドを実行してください。
pclsnap コマンドがエラーになる、または pclsnap コマンドが復帰しない等により調査情報が採取できない場合は、クラッシュダンプを採取してください。
参考
pclsnap コマンドの実行に必要なディレクトリの空き容量の目安を、以下の表に示します。
ディレクトリの種類 | デフォルトディレクトリ | 空き容量(目安) (MB) |
---|---|---|
出力ディレクトリ | コマンド実行時のカレントディレクトリ | 300 |
一時ディレクトリ | /tmp | 500 |
注意
システム環境によっては、上記目安値(300MB, 500MB)では空き容量不足となる場合があります。
ディレクトリの空き容量不足を原因として情報採取が正常に行われなかった場合、pclsnap コマンドは終了時にエラーメッセージまたは警告メッセージを出力します。この場合、以下に示す対処方法に従って、再度コマンドを実行してください。
pclsnap コマンドを実行して、出力ファイルの生成に失敗した場合、次のエラーメッセージが出力されます。
ERROR: failed to generate the output file "xxx". DIAG: ...
出力ディレクトリを空き容量の大きなディレクトリに変更して、再度コマンドを実行してください。
出力ディレクトリを /var/crash にする場合
# /opt/FJSVpclsnap/bin/pclsnap -a /var/crash/output <Enter>
pclsnap コマンドを実行すると、次の警告メッセージが出力されることがあります。
WARNING: The output file "xxx" may not contain some data files. DIAG: ...
この警告メッセージが出力された場合、pclsnap コマンドの出力ファイルは生成されますが、一部の採取対象情報が出力ファイルに含まれていない可能性があります。
一時ディレクトリを空き容量の大きなディレクトリに変更して、再度コマンドを実行してください。
一時ディレクトリを /var/crash に変更する場合
# /opt/FJSVpclsnap/bin/pclsnap -a -T/var/crash output <Enter>
一時ディレクトリを変更しても同様の警告メッセージが出力される場合、次の原因が考えられます。
(1) システム状態に起因して、特定の情報採取コマンドがタイムアウトする
(2) 採取対象ファイルが、一時ディレクトリの空き領域と比較して大きい
(1) の場合は、pclsnap コマンドの出力ファイルに含まれる pclsnap.elog ファイルにタイムアウト発生のログが記録されています。pclsnap コマンドの出力ファイルとともに、可能であればクラッシュダンプを採取してください。
(2) の場合は、次の (a) (b) などが一時ディレクトリの空き容量よりも大きくなっていないか、確認してください。
(a) ログファイルのサイズ
・ /var/log/messages
・ /var/opt/SMAW*/log/ 配下のログファイル (SMAWsf/log/rcsd.log など)
(b) コアファイルの合計サイズ
・ GFS のコアファイル:/var/opt/FJSVsfcfs/cores/*
・ GDS のコアファイル:/var/opt/FJSVsdx/*core/*
これらが一時ディレクトリの空き容量よりも大きい場合には、該当ファイルを出力ディレクトリおよび一時ディレクトリとは別のパーティションに移動して、再度 pclsnap コマンドを実行してください。なお、移動したファイルは削除せずに保存しておいてください。
Linux Kernel Crash Dump(LKCD)、Netdump、あるいは diskdump がインストールされた環境では、調査資料としてクラッシュダンプを採取することができます。
カーネルで Oops が発生した場合
カーネルでパニックが発生した場合
システム管理者がコンソールで<Alt>+<SysRq>+<C>キーを押した場合
本体の NMI ボタンを押した場合
クラッシュダンプの採取方法は以下のとおりです。
システムパニック時のクラッシュダンプ採取方法
クラッシュダンプの保存ディレクトリ配下に、切替え発生時刻以降のクラッシュダンプが存在するか否かを確認してください。切替え発生時刻以降のクラッシュダンプが存在する場合、クラッシュダンプを収集してください。切替え発生時刻以降のクラッシュダンプが存在しない場合、可能な限り手動でクラッシュダンプを採取してください。
手動によるクラッシュダンプの採取方法
以下のいずれかの方法でクラッシュダンプを採取し、クラッシュダンプの保存ディレクトリ配下にあるクラッシュダンプを収集してください。
・本体装置の NMI ボタンを押下する
・コンソールで<Alt>+<SysRq>+<C>キーを押下する
クラッシュダンプは異常が発生したノード(LKCD、diskdumpの場合)、あるいは Netdump サーバ上 (Netdump の場合) にファイルとして保存されます。
保存先ディレクトリは/var/crash です。