fjsnapコマンドは、トラブルの解析に必要なシステム情報を一括で取得するツールです。PRIMECLUSTERシステムで障害が発生した場合は、必要なエラー情報を採取して原因を追及することができます。
手順は以下のとおりです。
システム管理者権限でログインします。
fjsnapコマンドを実行します。
/usr/sbin/fjsnap -a output
output には、fjsnap コマンドを使用して採取したシステム情報の出力先となる出力ファイル名を指定します。
クラスタを構成する一部のノードが停止している状態でfjsnapコマンドを実行した場合に、以下のメッセージが switchlog および /var/log/messages に出力されることがありますが、対処は不要です。
(BM, 8) Failed sending message <message> to object <object> on host <host>.
(WRP, 11) Message send failed, queue id <queueid>, process <process>, <name>, to host <node>.
参照
fjsnap コマンドの詳細については、FJSVsnapパッケージに含まれているREADMEファイルを参照してください。
参考
fjsnapコマンドの実行タイミングについて
エラーメッセージが出力された場合など、通常運用時のトラブル発生時には、即座にfjsnapコマンドを実行してください。
システムハングなどにより、fjsnapコマンドが実行できない場合は、クラッシュダンプを採取してください。その後、シングルユーザモードで起動し、fjsnapコマンドを実行してください。クラッシュダンプの採取については、“C.1.3 クラッシュダンプ”を参照してください。
トラブル発生後に、ノードが自動的に再起動してしまった(シングルユーザモードで起動できなかった)場合や、誤ってマルチユーザモードで起動してしまった場合にも、fjsnapコマンドを実行してください。
fjsnapコマンドがエラーになる、またはfjsnapコマンドが復帰しないなどにより、調査情報が採取できない場合は、クラッシュダンプを採取してください。
fjsnapコマンドの実行に必要なディレクトリの空き容量について
fjsnapコマンドの実行に必要な出力先ディレクトリと作業ディレクトリ(作業領域)の容量については、fjsnapコマンドのREADMEファイルを確認してください。空き容量が不足している場合は、空き容量を確保するか、空き容量の大きなディレクトリに変更して、コマンドを実行してください。
fjsnapコマンドのREADMEファイルに記載されている出力先ディレクトリと作業ディレクトリ以外に、PRIMECLUSTERでは以下のディレクトリを使用します。以下のディレクトリの空き容量を確認してください。空き容量が不足している場合は、空き容量を確保してからコマンドを実行してください。
/opt/SMAW/SMAWRrms 配下
ディスク所要量:
以下のディレクトリとファイルの容量を一時的に使用します。duコマンドを使用して、以下のディレクトリとファイルのサイズを計算して見積もってください。
/var/opt/SMAWRrms/log
/var/log/messages*
/var/opt/FJSVcluster/data/TRC 配下
ディスク所要量:2MB程度
/var/opt/FJSVsfcfs/log 配下
ディスク所要量:
使用するGlobal File Services共用ファイルシステム
1個あたり: 11.3MB (固定)
最大 (10個): 113MB (固定)
/tmp 配下
ディスク所要量:
使用するGlobal File Services共用ファイルシステム
1個あたり: 34.6KB (最大)
最大 (10個): 346KB (最大)