Linux 固有のトラブルシューティングについて説明します。
■トラブル一覧
No. | 現象 |
---|---|
cfconfig コマンド実行時にシステムハングする | |
Cluster Admin に CRM メインウィンドウが表示されない | |
pclsnap による調査資料の採取に失敗する | |
RMS Wizard にて CRM のメニューが表示されない | |
RMS Wizard の Configuration-Activate に失敗する | |
SF の起動 (sdtool -b コマンド)に失敗する | |
userApplication の Offline 処理で、ファイルシステムの異常が発生していないにもかかわらずアンマウントに失敗し、ノードが強制停止した |
cfconfig コマンドの実行を連続して行っている可能性があります。
本機能は制限事項です。cfconfig コマンド実行の間隔は、5 分以上空けてください。
詳細は、PRIMECLUSTERのインストールガイドの"制限事項"を参照してください。
CF の起動直後 (cfconfig -l) に cfconfig -u を実行していませんか?
CRM ビューパッケージ (FJSVwvfrm-xxxx-xxxx.rpm) がインストールされていない可能性があります。
rpm コマンドにて、CRM ビューパッケージがインストールされていることを確認してください。
インストールされていない場合は、PRIMECLUSTERのインストールガイドの "インストール手順"または、"インストール" を参照して、インストールしてください。
CRM ビューパッケージ (FJSVwvfrm-xxxx-xxxx.rpm) はインストールされていますか?
pclsnap に必要な領域が不足している可能性があります。
以下のコアファイルが存在しているかを確認してください。
/var/opt/FJSVsfcfs/cores/*/core.*
/var/lib/systemd/coredump/core.sfc*
/var/opt/FJSVsdx/*core/*
/var/lib/systemd/coredump/core.sdx*
コアファイルが存在している場合、pclsnap 採取には大量の空き領域が必要となるため、領域不足により採取できない可能性があります。
"7.2.1 fjsnap/pclsnap コマンドの実行" を参照し、必要な領域を確保したうえで pclsnap コマンドを実行してください。
コアファイルが出力されていませんか?
pclsnap が情報採取する際、システム内の何らかの異常によりサブコマンドが正常に終了しなかった可能性があります。
サブコマンドが正常に終了しなかった状態で採取された snap と pclsnap.elog 、およびダンプを採取してサポートデスクにご連絡ください。
詳細は、"7.2.1 fjsnap/pclsnap コマンドの実行" を参照してください。
メッセージ "DIAG: sub-command which collects information of high availability returns non-zero value." が出力されていませんか?
CRM のメニューに関連するパッケージがインストールされていない可能性があります。
rpm コマンドにて、以下のパッケージがインストールされていることを確認してください。
(RAO)
・FJSVclapm
・FJSVclrms
・FJSVclrwz
RAO のパッケージは、インストール CD3 に格納されています。
インストール手順の詳細は、PRIMECLUSTERのインストールガイドを参照してください。
RAO パッケージが正しくインストールされていますか?
RMS Wizard の Activate が失敗し、以下のエラーメッセージが表示される場合があります。
”cfreg daemon not present”
本機能は、制限事項です。cfconfig -l を全ノードで実行し、5 分後に再度 Configuration-Activate を行ってください。
エラーメッセージ "cfreg daemon not present" が表示されていませんか?
"PRIMECLUSTER 導入運用手引書 (Linux)" の "シャットダウン機構の設定" を参照して、
/etc/opt/SMAW/SMAWsf/SA_rsb.cfg で、RSB の IP アドレス、ID/Password の設定値に誤りがないか、あるいは /etc/opt/SMAW/SMAWsf/SA_blade.cfg で、マネジメントブレードの IP アドレス、SNMP コミュニティ名の設定値に誤りがないことを確認してください。
また、RSB、あるいはマネジメントブレードの IP アドレスに Ping が通ることを確認してください。Ping が通らない場合、ネットワーク構成、もしくは、RSB、あるいはマネジメントブレードに設定した IP アドレスが間違っている可能性があります。/etc/opt/SMAW/SMAWsf/SA_rsb.cfg、あるいは /etc/opt/SMAW/SMAWsf/SA_blade.cfg の内容が正しい場合でも、RSB、あるいはマネジメントブレードに設定した IP アドレスが間違っていると、SF が起動できません。
また、GLS の切替方式によって RSB の接続方法が異なりますので、注意してください。RSB あるいはマネジメントブレードの IP アドレスを変更した場合は、/etc/opt/SMAW/SMAWsf/SA_rsb.cfg 内の RSB の IP アドレス、あるいは/etc/opt/SMAW/SMAWsf/SA_blade.cfg内のマネジメントブレードのIPアドレスも変更してください。
詳細は、"PRIMECLUSTER 導入運用手引書 (Linux)" の "シャットダウン機構の設定" を参照してください。
RSB、あるいはマネジメントブレードの IP アドレスは正しく設定されていますか?
fuser コマンドの仕様により、fuser コマンドが復帰しない場合があります。
この場合、Offline 処理が異常終了し、ノードが強制停止します。
PRIMECLUSTER は、Offline 処理でアンマウント対象のファイルシステムを確実にアンマウントするために、アンマウント処理中にファイルシステムを使用しているプロセスを強制停止します。
このとき、PRIMECLUSTER は、そのマウントポイントに対して fuser コマンドを実行します。
fuser コマンドは、/etc/mtab に記載されているすべてのマウントポイントに対して、stat() システムコールを実行します。
この仕様により、アンマウント対象ではないファイルシステムのデバイスの異常が原因で fuser コマンドが復帰せず、Offline 処理が異常終了し、ノードが強制停止する場合があります。
/etc/mtab に記載されているすべてのマウントポイントに対して異常がないか確認し、fuser コマンドがハングアップしないようにしてください。
例えば、NFS ファイルシステムをマウントしており、かつ、NFS サーバとの通信ができない場合は、NFS サーバとの通信ができるようにしてください。
PRIMECLUSTER の制御対象であるマウントポイントに対して fuser コマンドを実行し、fuser コマンドが復帰しますか?
fuser コマンドが復帰しない場合、そのノードのいずれかのファイルシステムのデバイスに、異常が発生している可能性があります。