問題が発生した場合、RMSはトラブルシューティングのための情報を含んだエラーメッセージを出力します。メッセージが何も出力されない場合は、問題の診断と修正に以下の方法を試してください。
RMSが起動直後に停止する。
RMS BMは、起動時にリモートノード上の他のBMと構成チェックサムを交換します。BM起動時のチェックサムがリモートノードのチェックサムと一致すれば、起動処理は続行します。チェックサムが不一致の場合、以下のすべての条件が当てはまるときにRMS BMはシャットダウンします。
初期起動時間 (HV_CHECKSUM_INTERVALに設定される) 内のBMのチェックサムがリモートモニタのチェックサムと異なる。
ノードにOnline、待機中、ビジー、またはロック中のアプリケーションが存在しない。
このBMがOnline状態のリモートBMを検出できない。
または、BMが稼動中であっても、チェックサムがローカル構成チェックサムと一致しないすべてのリモートモニタはOfflineと判断されるため、これらのモニタとメッセージを交換することはできず、ローカルモニタとこれらのリモートモニタとを自動または手動により切替えることができません。
チェックサムが異なる場合、状況を説明するメッセージがswitchlogに出力されます。
注意
構成チェックサムの不一致は主に、手動でRMSグローバル環境変数を変更する際に、一部のノードについてだけ変更し、残りを変更しなかった場合に発生します。
対処法:
構成チェックサムの不一致が発生している場合は、以下の手順に従ってすべてのノードの構成定義を正しく更新してください。
クラスタ内の全RMSを停止する。
どの構成定義ファイルを使用するかを決定する。構成定義ファイル名を確認するには、それぞれのノードで 'hvdisp -a' または 'hvdisp -T SysNode' を実行します(hvdispコマンドの実行には、ルート権限は必要ありません)。
以下のいずれかの場合は、構成定義ファイルの名前は同じでも、内容はそれぞれのノードで異なる場合がありますので、正しい構成定義ファイルを選択してください。
前回のRMS構成定義の配布が失敗した場合
RMS Wizards Toolsがクラスタ内の複数ノードで使用された場合
正しい構成定義ファイルを、作成に使用したものと同じツール (RMS Wizard Tools) を使用して配布する。手順については "3.4 RMS構成定義ファイルの作成と配布" を参照してください。
または、既存の<configname>.usファイルを以下の方法で再配布します。
RMS Wizard Toolsの [Configuration Push]
すべてのノードへRMSの配布が成功したことを確認してください。
クラスタ全ノードでRMSを起動してください。
RMSが起動後にハングする (プロセスは実行中だが、hvdispがハングする) 。
ローカルノードがクラスタ内の1つ以上の他のノードから見てCFのLEFTCLUSTER状態の場合に、この問題が発生します。
対処法:
すべてのクラスタノード上で「cftool -n」を呼び出してLEFTCLUSTER状態をチェックすることにより、この問題を確認してください。
「cftool -k」を呼び出してLEFTCLUSTER状態をクリアしてください。ノードがクラスタに参入するとすぐに、RMSは稼動し続けます。再起動する必要はありません。
RMSが起動直後にループする (停止する場合もある)。
CIP構成定義ファイル/etc/cip.cfにネットマスクのエントリが含まれている場合に、この問題が発生します。これらのエントリは必要ありません (CIPによって評価されません)。ネットマスクは、IPアドレスとフォーマットが同じためRMSからは区別できません。このため、ネットマスクのエントリがあると、RMSはgethostbyaddr()の呼び出しを行います。通常は実害が発生することはありませんが、稀にOSが誤動作する可能性があります。
対処法:
ネットマスクのエントリが/etc/cip.cfに存在することを調べてください。
ネットマスクのエントリを削除して、RMSを再起動してください。
RMSが他ノードの障害を検出しても 、そのノードが強制停止されない。
SysNode が Wait状態の場合に、この問題が発生します。
対処法:
cftool -n を使用して CF の状態を確認してください。
CF の状態が LEFTCLUSTER の場合、LEFTCLUSTER のノードを手動で停止した後、cftool -k を使用して LEFTCLUSTERを解消してください。
CF の状態が DOWN となっていることを確認したら、hvdisp -T SysNode を使用してすべてのSysNodeオブジェクトの状態を確認してください 。
SysNodeがWait状態の場合、hvutil -u SysNode を実行してください。
注意
cftool -k コマンド、および hvutil -u コマンドを使用する場合は、必ず Wait 状態のノードを手動で停止してから実行してください。本コマンドを実行すると、アプリケーションの切替え(フェイルオーバ)が行われるため、Wait 状態のノードを停止せずに本コマンドを実行した場合、データが破損する可能性があります。
RMSベースモニタが、 クラスタのハートビートの喪失を検出しましたが、原因の手がかりがない。
この場合、システム管理者は以下のような情報採取を行ってください。
truss(1)、またはstrace(1) を使ってディテクタプロセスのログを採取する。
RMSとディテクタロギングを「l0 (小文字のエルとゼロ)」にする。
システム動作情報を採取する。
truss(1)/strace(1) の呼び出しとログレベルは、ScriptTimeout属性に指定された秒数が経過すると解除されます。すべての情報は、switchlogファイルに保存されます。
ディテクタ履歴などのユーザの指定による操作は、ノードがクラスタを離脱したように見えていても、引き続き各ノードで実行されています。履歴レベルを高く設定すると、ノードの性能に影響が生じ、ベースモニタのハートビートの遅れが発生する場合もあります。
対処法:
診断情報については、switchlogを参照してください。