PRIMECLUSTER 活用ガイド <トラブルシューティング編> (Solaris(TM)オペレーティングシステム/Linux版) |
目次
索引
![]() ![]() |
第1部 事象別トラブル | > 第3章 運用時のトラブル |
運用時、電源が切断されたり、システムが強制停止された場合のトラブルについて対処法を説明します。
No. |
現象 |
Solaris |
Linux |
---|---|---|---|
クラスタシステム運用中、突然ノードの AC 電源が切断された場合、電源切断されたノードに LEFTCLUSTER 状態が設定され、コンソールが切断された |
○ |
− |
|
クラスタシステム運用中、誤って Break 信号を送信してしまった、STOP-A を押下してしまった、または、RCCU を電源断してしまったために OBP モードとなってしまった |
○ |
− |
|
3 ノード以上のクラスタ構成において、RCI 故障中に 2 ノード以上で同時にノード異常が発生し、異常の発生したノードの CF ノード状態が LEFTCLUSTER のままとなり、コンソールが切断されてしまった |
○ |
− |
|
RCI の故障中にクラスタインタコネクトの全パス故障またはシステムハングが発生したが、ノードが OBP モードに移行しなかった |
○ |
− |
|
他ノードから、強制停止(reset)させられた |
○ |
− |
|
他ノードから、強制停止(panic)させられた |
○ |
○ |
|
運用中にパニックされていないにもかかわらず、パニックを検出した旨の以下のメッセージが出力された |
○ |
− |
|
運用ノードの Request スイッチを押しても、フェイルオーバが発生しない |
○ |
− |
|
クラスタインタコネクトをすべて抜いた際に LEFTCLUSTER となるが、RCI 経由のパニックに失敗する |
○ |
− |
|
待機ノードが PANIC した |
○ |
− |
|
シャットダウン機構が以下の強制停止失敗のメッセージを表示した |
○ |
○ |
|
クラスタシステム運用中、ノード異常が発生してもフェイルオーバが発生しない |
− |
○ |
|
/var/opt/SMAWsf/log/SA_pprcir.log に以下のメッセージが表示され、RCI 経由でのリセット指示ができない |
○ |
− |
|
運用中に OBP プロンプトになっていないにもかかわらず、OBP プロンプトを検出した旨の以下のメッセージが出力された |
○ |
− |
|
クラスタのスプリットブレイン時に優先度の高いノードが強制停止された |
○ |
○ |
ノードの電源が実際に切断されていることを確認した後、cftool -k コマンドによりノードの状態を DOWN にしてください。
その後、コンソールを再接続し、ノードに電源を投入してください。
既存の生存ノードで cftool -n を発行し、OBP モードに移行したノードの状態が DOWN であるかを確認してください。
DOWN でない場合は、cftool -k を発行し、OBP モードに移行したノードの状態を DOWN にした後、以下のいずれかの対処を実施してください。
コンソールを再接続し、実際にノードが異常状態にあることを確認してから、cftool -k を発行しノードの状態を DOWN にしてください。
全ノードの /var/adm/messages を参照し、以下のエラーメッセージが出力されていないか確認してください。
FJSVcluster: エラー: 7040: コンソールへの接続ができなくなりました。(node:nodename portno:portnumber detail:code) FJSVcluster: エラー: 7042:コンソールへの接続ができません。(node:nodename portno:portnumber detail:code)
上記エラーメッセージが出力されている場合はそのエラーメッセージの対処法に従ってください。上記エラーメッセージが出力されていない場合は、原因として以下の可能性が考えられます。
この場合、モードスイッチを AUTO にしてください。
KEYBOARD_ABORT=disable または KEYBOARD_ABORT=alternate
この場合、以下の行をコメントアウトし、ノードを再起動してください。
KEYBOARD_ABORT=disable または KEYBOARD_ABORT=alternate
この場合、RCCU のアカウントまたはスーパーユーザのパスワードを削除してください。削除方法については、"リモートコンソール接続装置 取扱説明書" を参照してください。
RCCU の電源断などにより、運用中に突然 ok プロンプトになった場合、他のノードからノードの状態確認が行えなえず、クラスタ整合状態ではないと判断され、シャットダウン機構により強制停止 (reset) が行われます。
このトラブルは、PRIMECLUSTER 4.0 のみ対象となります。
運用中に、RCCU の電源を切断しないでください。
RMS 間の heartbeat が切断されたため、相手ノードを強制停止した可能性があります。Heartbeat が切断された原因としては以下の場合があります。
RMS の動作に支障があるため、hvdet_system プロセスを使用して監視するリソースを減らしてください。
RMS が必要とするメッセージキューパラメタ値が不足しているためにノード間通信が失敗し、パニックが発生した可能性があります。
/etc/system の msgsys:msginfo_msgtql の値を 65535 以上に変更してください。
CF 間の heartbeat が切断されたため、相手ノードから強制停止された可能性があります。Heartbeat が切断された原因としては以下の場合があります。
プロセスの動作優先度(nice値)を keventd *1) の優先度よりも高くチューニングしているプロセス群(スレッドを含む)が、CFのハートビート処理の監視時間を超えてCPUを占有しています。
*1)ワークキューに登録した処理タスクを実行する汎用のカーネルスレッドです。PCLのハートビート処理は、このカーネルスレッドを使用しています。
keventd の nice値は、RHEL4 では -10、RHEL5 では -5 が設定されています。
nice 値の変更により CPU を長時間占有する可能性のあるプロセスの動作優先度を高くする場合、nice値を RHEL4 では -10 より大きな値、RHEL5 では -5 より大きな値に設定してください。
SF (シャットダウン機構) の設定において、コンソール非同期監視の設定を行っている環境で、相手ノードのコンソールに login し、コンソール上で、"panic[cpu" の文字列を含むファイルを表示したためと考えられます。
本メッセージは、コンソール非同期監視がコンソール上に該当文字列を検出した際に出力されるメッセージです。動作としては仕様どおりであり、対処は不要です。
RCCU 装置とクラスタホストの IP アドレスが同一セグメントでないため、強制停止と相手ノードの状態確認が行えず、フェイルオーバが発生しない可能性があります。
RCCU 装置とクラスタホストの IP アドレスを同一セグメントにしてください。
非同期監視の設定が正しく行なわれていない可能性があります。
非同期監視の設定を見直し、正しく設定してください。
両ノードで RCI アドレスが同一となっているなど RCI アドレスの設定に誤りがあり、RCI 経由でのノードのパニックに失敗している可能性があります。
RCI アドレスの見直しが必要となりますので、当社技術員 (CE) に連絡してください。
RMS が必要とするメッセージキューパラメタ値が不足しているためにノード間通信が失敗し、 パニックが発生した可能性があります。
/etc/system の msgsys:msginfo_msgtql の値を 65535 以上に変更してください。
CF の状態が LEFTCLUSTER の場合、異常ノードを停止(reboot or POFF)し、 "cftool -k" を実行してください。
CF の状態が LEFTCLUSTER でなく、RMS の SysNode リソースの状態が Wait の場合、異常ノードを停止(reboot or POFF)し、"hvutil -o" を実行してください。
PRIMEQUEST を使用した環境で、CF ノード名の変更、または PRIMECLUSTER を再インストールし前回インストール時とは異なる CF ノード名を使用している場合に本現象が発生する可能性があります。
すべてのノードをシングルユーザモードで起動後、/etc/opt/FJSVpsa/local/set.node ファイルを削除し、ノードを再起動してください。
モードスイッチが、MANUAL、MAINTENANCE の場合には、RCI 経由でのリセット指示はできません。
RCI 経由でのリセットを行う場合は、モードスイッチを AUTO にしてください。
SF(シャットダウン機構) の設定において、コンソール非同期監視の設定を行っている環境で、相手ノードのコンソールにログインし、コンソール上で OBP プロンプトを表す文字列 ("ok") を含むファイルを表示したためと考えられます。
本メッセージは、コンソール非同期監視がコンソール上に該当文字列を検出した際に出力されるメッセージです。動作としては仕様どおりであり、対処は不要です。
生存優先度が高い場合でも、異常が発生したクラスタノードは強制停止の対象になります。
例) システムのハングやパニック、システム高負荷時が続いた場合。
強制停止されたノードで異常がなかったか確認してください。
目次
索引
![]() ![]() |