PRIMECLUSTER 活用ガイド <トラブルシューティング編> (Solaris(TM)オペレーティングシステム/Linux版)
目次 索引 前ページ次ページ

第1部 事象別トラブル> 第3章 運用時のトラブル

3.5 電源切断、強制停止に関するトラブル

運用時、電源が切断されたり、システムが強制停止された場合のトラブルについて対処法を説明します。

■トラブル一覧

No.

現象

Solaris

Linux

Q3-5-1

クラスタシステム運用中、突然ノードの AC 電源が切断された場合、電源切断されたノードに LEFTCLUSTER 状態が設定され、コンソールが切断された

Q3-5-2

クラスタシステム運用中、誤って Break 信号を送信してしまった、STOP-A を押下してしまった、または、RCCU を電源断してしまったために OBP モードとなってしまった

Q3-5-3

3 ノード以上のクラスタ構成において、RCI 故障中に 2 ノード以上で同時にノード異常が発生し、異常の発生したノードの CF ノード状態が LEFTCLUSTER のままとなり、コンソールが切断されてしまった

Q3-5-4

RCI の故障中にクラスタインタコネクトの全パス故障またはシステムハングが発生したが、ノードが OBP モードに移行しなかった

Q3-5-5

他ノードから、強制停止(reset)させられた

Q3-5-6

他ノードから、強制停止(panic)させられた

Q3-5-7

運用中にパニックされていないにもかかわらず、パニックを検出した旨の以下のメッセージが出力された
MA SA_rccu.so reported host dvptap11 leftcluster, state MA_paniced_fsnotflushed

Q3-5-8

運用ノードの Request スイッチを押しても、フェイルオーバが発生しない

Q3-5-9

クラスタインタコネクトをすべて抜いた際に LEFTCLUSTER となるが、RCI 経由のパニックに失敗する

Q3-5-10

待機ノードが PANIC した

Q3-5-11

シャットダウン機構が以下の強制停止失敗のメッセージを表示した
RMS (SYS, 8): ERROR: RMS failed to shut down the host fuji3RMS via a Shutdown Facility, no further kill functionality is available. The cluster is now hung.

Q3-5-12

クラスタシステム運用中、ノード異常が発生してもフェイルオーバが発生しない

Q3-5-13

/var/opt/SMAWsf/log/SA_pprcir.log に以下のメッセージが表示され、RCI 経由でのリセット指示ができない
DEV:(SA_pprcir.so) There is no response from the asynchronous monitoring daemon in MAHostEliminate of node nodename.

Q3-5-14

運用中に OBP プロンプトになっていないにもかかわらず、OBP プロンプトを検出した旨の以下のメッセージが出力された
MA Monitoring Agent reported host hostname leftcluster, state MA_inprom

Q3-5-15

クラスタのスプリットブレイン時に優先度の高いノードが強制停止された


 

Q3-5-1 クラスタシステム運用中、突然ノードの AC 電源が切断された場合、電源切断されたノードに LEFTCLUSTER 状が設定され、コンソールが切断された

対処

ノードの電源が実際に切断されていることを確認した後、cftool -k コマンドによりノードの状態を DOWN にしてください。

その後、コンソールを再接続し、ノードに電源を投入してください。


 

Q3-5-2 クラスタシステム運用中、誤って Break 信を送信してしまった、STOP-A を押下してしまった、または、RCCU を電源断してしまったために OBP モードとなってしまった

対処

既存の生存ノードで cftool -n を発行し、OBP モードに移行したノードの状態が DOWN であるかを確認してください。

DOWN でない場合は、cftool -k を発行し、OBP モードに移行したノードの状態を DOWN にした後、以下のいずれかの対処を実施してください。


 

Q3-5-3 3 ノード以上のクラスタ構成において、RCI 故中に 2 ノード以上で同時にノード異常が発生し、異常の発生したノードの CF ノード状態が LEFTCLUSTER のままとなり、コンソールが切断されてしまった

対処

コンソールを再接続し、実際にノードが異常状態にあることを確認してから、cftool -k を発行しノードの状態を DOWN にしてください。


 

Q3-5-4 RCI の故障中にクラスタインタコネクの全パス故障またはシステムハングが発生したが、ノードが OBP モーに移行しなかった

対処

全ノードの /var/adm/messages を参照し、以下のエラーメッセージが出力されていないか確認してください。

FJSVcluster: エラー: 7040: コンソールへの接続ができなくなりました。(node:nodename portno:portnumber detail:code)
FJSVcluster: エラー: 7042:コンソールへの接続ができません。(node:nodename portno:portnumber detail:code)

上記エラーメッセージが出力されている場合はそのエラーメッセージの対処法に従ってください。上記エラーメッセージが出力されていない場合は、原因として以下の可能性が考えられます。


 

Q3-5-5 他ノードから、強制停(reset)させられた

原因

RCCU の電源断などにより、運用中に突然 ok プロンプトになった場合、他のノードからノードの状態確認が行えなえず、クラスタ整合状態ではないと判断され、シャットダウン機構により強制停止 (reset) が行われます。

このトラブルは、PRIMECLUSTER 4.0 のみ対象となります。

対処

運用中に、RCCU の電源を切断しないでください。


 

Q3-5-6 他ノードから、強制停(panic)させられた

原因1

RMS 間の heartbeat が切断されたため、相手ノードを強制停止した可能性があります。Heartbeat が切断された原因としては以下の場合があります。

対処1

RMS の動作に支障があるため、hvdet_system プロセスを使用して監視するリソースを減らしてください。

原因2

RMS が必要とするメッセージキューパラメタ値が不足しているためにノード間通信が失敗し、パニックが発生した可能性があります。

対処2

/etc/system の msgsys:msginfo_msgtql の値を 65535 以上に変更してください。

原因3

CF 間の heartbeat が切断されたため、相手ノードから強制停止された可能性があります。Heartbeat が切断された原因としては以下の場合があります。

対処3

nice 値の変更により CPU を長時間占有する可能性のあるプロセスの動作優先度を高くする場合、nice値を RHEL4 では -10 より大きな値、RHEL5 では -5 より大きな値に設定してください。


 

Q3-5-7 運用中にパニッされていないにもかかわらず、パニックを検出した旨の以下のメッセージが出力された
MA SA_rccu.so reported host dvptap11 leftcluster, state MA_paniced_fsnotflushed

原因

SF (シャットダウン機構) の設定において、コンソール非同期監視の設定を行っている環境で、相手ノードのコンソールに login し、コンソール上で、"panic[cpu" の文字列を含むファイルを表示したためと考えられます。

対処

本メッセージは、コンソール非同期監視がコンソール上に該当文字列を検出した際に出力されるメッセージです。動作としては仕様どおりであり、対処は不要です。


 

Q3-5-8 運用ノードの Request スイッチを押しても、フェイルオーが発生しない

原因1

RCCU 装置とクラスタホストの IP アドレスが同一セグメントでないため、強制停止と相手ノードの状態確認が行えず、フェイルオーバが発生しない可能性があります。

対処

RCCU 装置とクラスタホストの IP アドレスを同一セグメントにしてください。

原因2

非同期監視の設定が正しく行なわれていない可能性があります。

対処

非同期監視の設定を見直し、正しく設定してください。


 

Q3-5-9 クラスタインタコネクをすべて抜いた際に LEFTCLUSTER となるが、RCI 経由のパニッに失敗する

原因

両ノードで RCI アドレスが同一となっているなど RCI アドレスの設定に誤りがあり、RCI 経由でのノードのパニックに失敗している可能性があります。

対処

RCI アドレスの見直しが必要となりますので、当社技術員 (CE) に連絡してください。


 

Q3-5-10 待機ノードがパニッした

原因

RMS が必要とするメッセージキューパラメタ値が不足しているためにノード間通信が失敗し、 パニックが発生した可能性があります。

対処

/etc/system の msgsys:msginfo_msgtql の値を 65535 以上に変更してください。


 

Q3-5-11 シャットダウン機が以下の強制停失敗のメッセージを表示した
RMS (SYS, 8): ERROR: RMS failed to shut down the host fuji3RMS via a Shutdown Facility, no further kill functionality is available. The cluster is now hung.

対処1

CF の状態が LEFTCLUSTER の場合、異常ノードを停止(reboot or POFF)し、 "cftool -k" を実行してください。

対処2

CF の状態が LEFTCLUSTER でなく、RMS の SysNode リソースの状態が Wait の場合、異常ノードを停止(reboot or POFF)し、"hvutil -o" を実行してください。


 

Q3-5-12 クラスタシステム運用中、ノード異常が発生してもフェイルオーが発生しない

原因

PRIMEQUEST を使用した環境で、CF ノード名の変更、または PRIMECLUSTER を再インストールし前回インストール時とは異なる CF ノード名を使用している場合に本現象が発生する可能性があります。

対処

すべてのノードをシングルユーザモードで起動後、/etc/opt/FJSVpsa/local/set.node ファイルを削除し、ノードを再起動してください。


 

Q3-5-13 /var/opt/SMAWsf/log/SA_pprcir.log に以下のメッセージが表示され、RCI 経由でのリセット指示ができない
DEV:(SA_pprcir.so) There is no response from the asynchronous monitoring daemon in MAHostEliminate of node nodename.

原因

モードスイッチが、MANUAL、MAINTENANCE の場合には、RCI 経由でのリセット指示はできません。

対処

RCI 経由でのリセットを行う場合は、モードスイッチを AUTO にしてください。


 

Q3-5-14 運用中に OBP プロンプトになっていないにもかかわらず、OBP プロンプトを検出した旨の以下のメッセージが出力された
MA Monitoring Agent reported host hostname leftcluster, state MA_inprom

原因

SF(シャットダウン機構) の設定において、コンソール非同期監視の設定を行っている環境で、相手ノードのコンソールにログインし、コンソール上で OBP プロンプトを表す文字列 ("ok") を含むファイルを表示したためと考えられます。

対処

本メッセージは、コンソール非同期監視がコンソール上に該当文字列を検出した際に出力されるメッセージです。動作としては仕様どおりであり、対処は不要です。


 

Q3-5-15クラスタのスプリットブレイン時に優先度の高いノードが強制停止された

原因

生存優先度が高い場合でも、異常が発生したクラスタノードは強制停止の対象になります。

例) システムのハングやパニック、システム高負荷時が続いた場合。

確認事項

強制停止されたノードで異常がなかったか確認してください。


目次 索引 前ページ次ページ

All Rights Reserved, Copyright(C) 富士通株式会社 2009