3.5 電源切断、強制停止に関するトラブル

PRIMECLUSTER 活用ガイド＜トラブルシューティング編＞ (Solaris(TM)オペレーティングシステム／Linux版)

目次索引

第1部事象別トラブル

> 第3章運用時のトラブル

3.5 電源切断、強制停止に関するトラブル

運用時、電源が切断されたり、システムが強制停止された場合のトラブルについて対処法を説明します。

■トラブル一覧

No.	現象	Solaris	Linux
Ｑ3-5-1	クラスタシステム運用中、突然ノードの AC 電源が切断された場合、電源切断されたノードに LEFTCLUSTER 状態が設定され、コンソールが切断された	○	－
Ｑ3-5-2	クラスタシステム運用中、誤って Break 信号を送信してしまった、STOP-A を押下してしまった、または、RCCU を電源断してしまったために OBP モードとなってしまった	○	－
Ｑ3-5-3	3 ノード以上のクラスタ構成において、RCI 故障中に 2 ノード以上で同時にノード異常が発生し、異常の発生したノードの CF ノード状態が LEFTCLUSTER のままとなり、コンソールが切断されてしまった	○	－
Ｑ3-5-4	RCI の故障中にクラスタインタコネクトの全パス故障またはシステムハングが発生したが、ノードが OBP モードに移行しなかった	○	－
Ｑ3-5-5	他ノードから、強制停止（reset）させられた	○	－
Ｑ3-5-6	他ノードから、強制停止（panic）させられた	○	○
Ｑ3-5-7	運用中にパニックされていないにもかかわらず、パニックを検出した旨の以下のメッセージが出力された MA SA_rccu.so reported host dvptap11 leftcluster， state MA_paniced_fsnotflushed	○	－
Ｑ3-5-8	運用ノードの Request スイッチを押しても、フェイルオーバが発生しない	○	－
Ｑ3-5-9	クラスタインタコネクトをすべて抜いた際に LEFTCLUSTER となるが、RCI 経由のパニックに失敗する	○	－
Ｑ3-5-10	待機ノードが PANIC した	○	－
Ｑ3-5-11	シャットダウン機構が以下の強制停止失敗のメッセージを表示した RMS (SYS, 8): ERROR: RMS failed to shut down the host fuji3RMS via a Shutdown Facility, no further kill functionality is available. The cluster is now hung.	○	○
Ｑ3-5-12	クラスタシステム運用中、ノード異常が発生してもフェイルオーバが発生しない	－	○
Ｑ3-5-13	/var/opt/SMAWsf/log/SA_pprcir.log に以下のメッセージが表示され、RCI 経由でのリセット指示ができない DEV:(SA_pprcir.so) There is no response from the asynchronous monitoring daemon in MAHostEliminate of node nodename.	○	－
Ｑ3-5-14	運用中に OBP プロンプトになっていないにもかかわらず、OBP プロンプトを検出した旨の以下のメッセージが出力された MA Monitoring Agent reported host hostname leftcluster, state MA_inprom	○	－
Ｑ3-5-15	クラスタのスプリットブレイン時に優先度の高いノードが強制停止された	○	○

Ｑ3-5-1 クラスタシステム運用中、突然ノードの AC 電源が切断された場合、電源切断されたノードに LEFTCLUSTER 状態が設定され、コンソールが切断された

対処

ノードの電源が実際に切断されていることを確認した後、cftool -k コマンドによりノードの状態を DOWN にしてください。

その後、コンソールを再接続し、ノードに電源を投入してください。

Ｑ3-5-2 クラスタシステム運用中、誤って Break 信号を送信してしまった、STOP-A を押下してしまった、または、RCCU を電源断してしまったために OBP モードとなってしまった

対処

既存の生存ノードで cftool -n を発行し、OBP モードに移行したノードの状態が DOWN であるかを確認してください。

DOWN でない場合は、cftool -k を発行し、OBP モードに移行したノードの状態を DOWN にした後、以下のいずれかの対処を実施してください。

ok プロンプトから boot コマンドを実行してください
該当ノードの電源を落とし、再度電源を投入して起動してください

Ｑ3-5-3 3 ノード以上のクラスタ構成において、RCI 故障中に 2 ノード以上で同時にノード異常が発生し、異常の発生したノードの CF ノード状態が LEFTCLUSTER のままとなり、コンソールが切断されてしまった

対処

コンソールを再接続し、実際にノードが異常状態にあることを確認してから、cftool -k を発行しノードの状態を DOWN にしてください。

Ｑ3-5-4 RCI の故障中にクラスタインタコネクトの全パス故障またはシステムハングが発生したが、ノードが OBP モードに移行しなかった

対処

全ノードの /var/adm/messages を参照し、以下のエラーメッセージが出力されていないか確認してください。

FJSVcluster: エラー: 7040: コンソールへの接続ができなくなりました。(node:nodename portno:portnumber detail:code)
FJSVcluster: エラー: 7042:コンソールへの接続ができません。(node:nodename portno:portnumber detail:code)

上記エラーメッセージが出力されている場合はそのエラーメッセージの対処法に従ってください。上記エラーメッセージが出力されていない場合は、原因として以下の可能性が考えられます。

モードスイッチが SECURE になっている (PRIMEPOWER 200,400,600 の場合のみ)
この場合、モードスイッチを AUTO にしてください。
/etc/default/kbd で以下の行が有効になっている
```
KEYBOARD_ABORT=disable または KEYBOARD_ABORT=alternate
```
この場合、以下の行をコメントアウトし、ノードを再起動してください。
```
KEYBOARD_ABORT=disable または KEYBOARD_ABORT=alternate
```
RCCU のアカウントまたはスーパーユーザのパスワードが設定されている (PRIMEPOWER 4.1 または 4.1A10 で、パッチ 912745-02 を適用していない場合のみ)
この場合、RCCU のアカウントまたはスーパーユーザのパスワードを削除してください。削除方法については、"リモートコンソール接続装置取扱説明書" を参照してください。

Ｑ3-5-5 他ノードから、強制停止（reset）させられた

原因

RCCU の電源断などにより、運用中に突然 ok プロンプトになった場合、他のノードからノードの状態確認が行えなえず、クラスタ整合状態ではないと判断され、シャットダウン機構により強制停止 (reset) が行われます。

このトラブルは、PRIMECLUSTER 4.0 のみ対象となります。

対処

運用中に、RCCU の電源を切断しないでください。

Ｑ3-5-6 他ノードから、強制停止（panic）させられた

原因１

RMS 間の heartbeat が切断されたため、相手ノードを強制停止した可能性があります。Heartbeat が切断された原因としては以下の場合があります。

hvdet_system プロセスを使用して監視するリソースを大量に作成したとき

対処１

RMS の動作に支障があるため、hvdet_system プロセスを使用して監視するリソースを減らしてください。

原因２

RMS が必要とするメッセージキューパラメタ値が不足しているためにノード間通信が失敗し、パニックが発生した可能性があります。

対処２

/etc/system の msgsys:msginfo_msgtql の値を 65535 以上に変更してください。

原因３

CF 間の heartbeat が切断されたため、相手ノードから強制停止された可能性があります。Heartbeat が切断された原因としては以下の場合があります。

Linux
プロセスの動作優先度(nice値)を keventd *1) の優先度よりも高くチューニングしているプロセス群（スレッドを含む）が、CFのハートビート処理の監視時間を超えてCPUを占有しています。

*1)ワークキューに登録した処理タスクを実行する汎用のカーネルスレッドです。PCLのハートビート処理は、このカーネルスレッドを使用しています。
keventd の nice値は、RHEL4 では -10、RHEL5 では -5 が設定されています。

対処３

nice 値の変更により CPU を長時間占有する可能性のあるプロセスの動作優先度を高くする場合、nice値を RHEL4 では -10 より大きな値、RHEL5 では -5 より大きな値に設定してください。

Ｑ3-5-7 運用中にパニックされていないにもかかわらず、パニックを検出した旨の以下のメッセージが出力された
MA SA_rccu.so reported host dvptap11 leftcluster， state MA_paniced_fsnotflushed

原因

SF (シャットダウン機構) の設定において、コンソール非同期監視の設定を行っている環境で、相手ノードのコンソールに login し、コンソール上で、"panic[cpu" の文字列を含むファイルを表示したためと考えられます。

対処

本メッセージは、コンソール非同期監視がコンソール上に該当文字列を検出した際に出力されるメッセージです。動作としては仕様どおりであり、対処は不要です。

Ｑ3-5-8 運用ノードの Request スイッチを押しても、フェイルオーバが発生しない

原因１

RCCU 装置とクラスタホストの IP アドレスが同一セグメントでないため、強制停止と相手ノードの状態確認が行えず、フェイルオーバが発生しない可能性があります。

対処

RCCU 装置とクラスタホストの IP アドレスを同一セグメントにしてください。

原因２

非同期監視の設定が正しく行なわれていない可能性があります。

対処

非同期監視の設定を見直し、正しく設定してください。

Ｑ3-5-9 クラスタインタコネクトをすべて抜いた際に LEFTCLUSTER となるが、RCI 経由のパニックに失敗する

原因

両ノードで RCI アドレスが同一となっているなど RCI アドレスの設定に誤りがあり、RCI 経由でのノードのパニックに失敗している可能性があります。

対処

RCI アドレスの見直しが必要となりますので、当社技術員 (CE) に連絡してください。

Ｑ3-5-10 待機ノードがパニックした

原因

RMS が必要とするメッセージキューパラメタ値が不足しているためにノード間通信が失敗し、パニックが発生した可能性があります。

対処

/etc/system の msgsys:msginfo_msgtql の値を 65535 以上に変更してください。

Ｑ3-5-11 シャットダウン機構が以下の強制停止失敗のメッセージを表示した
RMS (SYS, 8): ERROR: RMS failed to shut down the host fuji3RMS via a Shutdown Facility, no further kill functionality is available. The cluster is now hung.

対処１

CF の状態が LEFTCLUSTER の場合、異常ノードを停止（reboot or POFF）し、 "cftool -k" を実行してください。

対処２

CF の状態が LEFTCLUSTER でなく、RMS の SysNode リソースの状態が Wait の場合、異常ノードを停止（reboot or POFF）し、"hvutil -o" を実行してください。

Ｑ3-5-12 クラスタシステム運用中、ノード異常が発生してもフェイルオーバが発生しない

原因

PRIMEQUEST を使用した環境で、CF ノード名の変更、または PRIMECLUSTER を再インストールし前回インストール時とは異なる CF ノード名を使用している場合に本現象が発生する可能性があります。

対処

すべてのノードをシングルユーザモードで起動後、/etc/opt/FJSVpsa/local/set.node ファイルを削除し、ノードを再起動してください。

Ｑ3-5-13 /var/opt/SMAWsf/log/SA_pprcir.log に以下のメッセージが表示され、RCI 経由でのリセット指示ができない
DEV:(SA_pprcir.so) There is no response from the asynchronous monitoring daemon in MAHostEliminate of node nodename.

原因

モードスイッチが、MANUAL、MAINTENANCE の場合には、RCI 経由でのリセット指示はできません。

対処

RCI 経由でのリセットを行う場合は、モードスイッチを AUTO にしてください。

Ｑ3-5-14 運用中に OBP プロンプトになっていないにもかかわらず、OBP プロンプトを検出した旨の以下のメッセージが出力された
MA Monitoring Agent reported host hostname leftcluster, state MA_inprom

原因

SF(シャットダウン機構) の設定において、コンソール非同期監視の設定を行っている環境で、相手ノードのコンソールにログインし、コンソール上で OBP プロンプトを表す文字列 ("ok") を含むファイルを表示したためと考えられます。

対処

Ｑ3-5-15クラスタのスプリットブレイン時に優先度の高いノードが強制停止された

原因

生存優先度が高い場合でも、異常が発生したクラスタノードは強制停止の対象になります。

例）システムのハングやパニック、システム高負荷時が続いた場合。

確認事項

強制停止されたノードで異常がなかったか確認してください。

目次索引

3.5 電源切断、強制停止に関するトラブル

■トラブル一覧

Ｑ3-5-1 クラスタシステム運用中、突然ノードの AC 電源が切断された場合、電源切断されたノードに LEFTCLUSTER 状態が設定され、コンソールが切断された

対処

Ｑ3-5-2 クラスタシステム運用中、誤って Break 信号を送信してしまった、STOP-A を押下してしまった、または、RCCU を電源断してしまったために OBP モードとなってしまった

対処

Ｑ3-5-3 3 ノード以上のクラスタ構成において、RCI 故障中に 2 ノード以上で同時にノード異常が発生し、異常の発生したノードの CF ノード状態が LEFTCLUSTER のままとなり、コンソールが切断されてしまった

対処

Ｑ3-5-4 RCI の故障中にクラスタインタコネクトの全パス故障またはシステムハングが発生したが、ノードが OBP モードに移行しなかった

対処

Ｑ3-5-5 他ノードから、強制停止（reset）させられた

原因

対処

Ｑ3-5-6 他ノードから、強制停止（panic）させられた

原因１

対処１

原因２

対処２

原因３

対処３

Ｑ3-5-7 運用中にパニックされていないにもかかわらず、パニックを検出した旨の以下のメッセージが出力された MA SA_rccu.so reported host dvptap11 leftcluster， state MA_paniced_fsnotflushed

原因

対処

Ｑ3-5-8 運用ノードの Request スイッチを押しても、フェイルオーバが発生しない

原因１

対処

原因２

対処

Ｑ3-5-9 クラスタインタコネクトをすべて抜いた際に LEFTCLUSTER となるが、RCI 経由のパニックに失敗する

原因

対処

Ｑ3-5-10 待機ノードがパニックした

原因

対処

Ｑ3-5-11 シャットダウン機構が以下の強制停止失敗のメッセージを表示した RMS (SYS, 8): ERROR: RMS failed to shut down the host fuji3RMS via a Shutdown Facility, no further kill functionality is available. The cluster is now hung.

対処１

対処２

Ｑ3-5-12 クラスタシステム運用中、ノード異常が発生してもフェイルオーバが発生しない

原因

対処

Ｑ3-5-13 /var/opt/SMAWsf/log/SA_pprcir.log に以下のメッセージが表示され、RCI 経由でのリセット指示ができない DEV:(SA_pprcir.so) There is no response from the asynchronous monitoring daemon in MAHostEliminate of node nodename.

原因

対処

Ｑ3-5-14 運用中に OBP プロンプトになっていないにもかかわらず、OBP プロンプトを検出した旨の以下のメッセージが出力された MA Monitoring Agent reported host hostname leftcluster, state MA_inprom

原因

対処

Ｑ3-5-15クラスタのスプリットブレイン時に優先度の高いノードが強制停止された

原因

確認事項

Ｑ3-5-7 運用中にパニックされていないにもかかわらず、パニックを検出した旨の以下のメッセージが出力された
MA SA_rccu.so reported host dvptap11 leftcluster， state MA_paniced_fsnotflushed

Ｑ3-5-11 シャットダウン機構が以下の強制停止失敗のメッセージを表示した
RMS (SYS, 8): ERROR: RMS failed to shut down the host fuji3RMS via a Shutdown Facility, no further kill functionality is available. The cluster is now hung.

Ｑ3-5-13 /var/opt/SMAWsf/log/SA_pprcir.log に以下のメッセージが表示され、RCI 経由でのリセット指示ができない
DEV:(SA_pprcir.so) There is no response from the asynchronous monitoring daemon in MAHostEliminate of node nodename.

Ｑ3-5-14 運用中に OBP プロンプトになっていないにもかかわらず、OBP プロンプトを検出した旨の以下のメッセージが出力された
MA Monitoring Agent reported host hostname leftcluster, state MA_inprom