fjsnap(4.2A00以前はpclsnap) コマンドは PRIMECLUSTER の障害調査情報採取ツールです。PRIMECLUSTER システムで障害が発生した場合は、必要なエラー情報を採取して原因を追及することができます。
fjsnapコマンドは、トラブルの解析に必要なシステム情報を一括で取得するツールです。PRIMECLUSTERシステムで障害が発生した場合は、必要なエラー情報を採取して原因を追及することができます。
手順は以下のとおりです。
システム管理者権限でログインします。
fjsnap コマンドを実行します。
/usr/sbin/fjsnap -a output
output には、fjsnap コマンドを使用して採取したシステム情報の出力先となる出力ファイル名を指定します。
クラスタを構成する一部のノードが停止している状態でfjsnapコマンドを実行した場合に、以下のメッセージが switchlog、および syslog (/var/log/messages (Linux)、あるいは /var/adm/messages (Solaris)) に出力されることがありますが、対処は不要です。
(BM, 8) Failed sending message <message> to object <object> on host <host>.
(WRP, 11) Message send failed, queue id <queueid>, process <process>, <name>, to host <node>.
参照
fjsnap コマンドの詳細については、FJSVsnap パッケージに含まれている README ファイルを参照してください。
参考
fjsnap コマンドの実行タイミングについて
エラーメッセージが出力された場合など、通常運用時のトラブル発生時には、即座に fjsnap コマンドを実行してください。
システムハングなどにより、fjsnap コマンドが実行できない場合は、クラッシュダンプを採取してください。その後、シングルユーザモードで起動し、fjsnap コマンドを実行してください。クラッシュダンプの採取については、"7.2.3 クラッシュダンプ" を参照してください。
トラブル発生後に、ノードが自動的に再起動してしまった(シングルユーザモードで起動できなかった)場合や、誤ってマルチユーザモードで起動してしまった場合にも、fjsnap コマンドを実行してください。
fjsnap コマンドがエラーになる、または fjsnap コマンドが復帰しないなどにより、調査情報が採取できない場合は、クラッシュダンプを採取してください。
pclsnap コマンド実行を以下に示します。
システム管理者権限でログインします。
pclsnap コマンドを実行します。
/opt/FJSVpclsnap/bin/pclsnap -a output 、または/opt/FJSVpclsnap/bin/pclsnap -h output
-a はすべての詳細情報を採取するため、データが大きくなります。-h を指定すると、クラスタ制御情報のみが採取されます。
output には、pclsnap コマンドを使用して採取したエラー情報の出力先となる出力媒体の特殊なファイル名または出力ファイル名 (/dev/st0 など) を指定します。
ディレクトリを含む出力ファイル名にカレントディレクトリからの相対パスを指定する場合、パスは "./" から始めてください。
参照
pclsnap コマンドの詳細については、FJSVpclsnap パッケージに含まれている README ファイルを参照してください。
参考
pclsnap コマンドの実行タイミングについて
エラーメッセージが出力された場合などの通常運用時のトラブルは、トラブル発生時に即座に pclsnap コマンドを実行してください。
システムハング等のため pclsnap コマンドが実行できない場合は、クラッシュダンプを採取してください。その後、シングルユーザモードで起動し、pclsnap コマンドを実行してください。クラッシュダンプの採取については、"7.2.3 クラッシュダンプ" を参照してください。
トラブル発生後に、ノードが自動的に再起動してしまった(シングルユーザモードで起動できなかった)場合や、誤ってマルチユーザモードで起動してしまった場合にも、pclsnap コマンドを実行してください。
pclsnap コマンドがエラーになる、または pclsnap コマンドが復帰しない等により調査情報が採取できない場合は、クラッシュダンプを採取してください。
参考
pclsnap コマンドの実行に必要なディレクトリの空き容量について
pclsnap コマンドの実行に必要なディレクトリの空き容量の目安を、以下の表に示します。
ディレクトリの種類 | デフォルトディレクトリ | 空き容量(目安) (MB) |
---|---|---|
出力ディレクトリ | コマンド実行時のカレントディレクトリ | 300 |
一時ディレクトリ | /tmp | 500 |
注意
システム環境によっては、上記目安値 (300MB, 500MB) では空き容量不足となる場合があります。
ディレクトリの空き容量不足を原因として情報採取が正常に行われなかった場合、pclsnap コマンドは終了時にエラーメッセージまたは警告メッセージを出力します。この場合、以下に示す対処方法に従って、再度コマンドを実行してください。
出力ディレクトリの空き容量不足への対処
pclsnap コマンドを実行して、出力ファイルの生成に失敗した場合、次のエラーメッセージが出力されます。
ERROR: failed to generate the output file "xxx".
DIAG: ...
対処方法:
出力ディレクトリを空き容量の大きなディレクトリに変更して、再度コマンドを実行してください。
例:
出力ディレクトリを /var/crash にする場合
# /opt/FJSVpclsnap/bin/pclsnap -a /var/crash/output
一時ディレクトリの空き容量不足への対処
pclsnap コマンドを実行すると、次の警告メッセージが出力されることがあります。
WARNING: The output file "xxx" may not contain some data files.
DIAG: ...
この警告メッセージが出力された場合、pclsnap コマンドの出力ファイルは生成されますが、一部の採取対象情報が出力ファイルに含まれていない可能性があります。
対処方法:
一時ディレクトリを空き容量の大きなディレクトリに変更して、再度コマンドを実行してください。
例:
一時ディレクトリを /var/crash に変更する場合
# /opt/FJSVpclsnap/bin/pclsnap -a -T/var/crash output
一時ディレクトリを変更しても同様の警告メッセージが出力される場合、次の原因が考えられます。
(1) システム状態に起因して、特定の情報採取コマンドがタイムアウトする
(2) 採取対象ファイルが、一時ディレクトリの空き領域と比較して大きい
(1) の場合は、pclsnap の出力ファイルに含まれる pclsnap.elog ファイルにタイムアウト発生のログが記録されています。pclsnap の出力ファイルとともに、可能であればクラッシュダンプを採取してください。
(2) の場合は、次の (a)(b) などが一時ディレクトリの空き容量よりも大きくなっていないか、確認してください。
(a) ログファイルのサイズ
/var/log/messages
/var/opt/SMAW*/log/ 配下のログファイル (SMAWsf/log/rcsd.log など)
(b) コアファイルの合計サイズ
GFS のコアファイル
/var/opt/FJSVsfcfs/cores/* /var/lib/systemd/coredump/core.sfc*
GDS のコアファイル
/var/opt/FJSVsdx/*core/* /var/lib/systemd/coredump/core.sdx*
これらが一時ディレクトリの空き容量よりも大きい場合には、該当ファイルを出力ディレクトリおよび一時ディレクトリとは別のパーティションに移動して、再度 pclsnap コマンドを実行してください。なお、移動したファイルは削除せずに保存しておいてください。