PRIMECLUSTER は、CF と RMS それぞれでハートビートを行います。それぞれが検出するハートビート異常の種類と、ハートビートタイムアウト検出時間(デフォルト)を以下に記載します。
ハートビートで検出する異常の種類 | ハートビートタイムアウト検出時間 | |
---|---|---|
CF |
| 10 秒 |
RMS |
| 600 秒 |
(*1): PRIMECLUSTER の非同期監視を利用している場合、非同期監視が即時検出します。
(*2): RMS のハートビートであるELM ハートビートが即時検出します。
(*3): 例としてリソースの二重故障があります。リソースの二重故障については、“PRIMECLUSTER 活用ガイド<トラブルシューティング編>”の“10.3 二重故障(Double Fault)”を参照してください。
注意
CF のハートビートが検出する異常は業務への影響が大きいため、ハートビートタイムアウト検出時間(以下、検出時間)のデフォルトを、RMS の検出時間より短くしています。
RMS の検出時間を CF の検出時間より短くした場合、RMS 起動時に以下の警告メッセージが出力されます。
(BM, 4) The CF cluster timeout <cftimeout> exceeds the RMS timeout <rmstimeout>. This may result in RMS node elimination request before CF timeout is exceeded. Please check the CF timeout specified in /etc/default/cluster.config and the RMS heartbeat miss time specified by hvcm '-h' option.
I/Oフェンシング機能+ICMPシャットダウンエージェントを使用した構成で、以下のようなサブシステムハングが発生した場合、運用ノードのパニックや強制停止ができず、待機ノードへの自動切替えが行われません。
CFのハートビート断またはRMSのハートビート断が発生、かつ、
ICMPシャットダウンエージェントに指定されたネットワーク経路で運用ノードからのping応答がある場合
そのため、このような異常が発生した場合、以下の対処を実施して業務の切替えを行う必要があります。
CFのハートビート断が発生した場合
CFがLEFTCLUSTER状態となるため、LEFTCLUSTER状態を回復してください。
LEFTCLUSTER状態については、“PRIMECLUSTER Cluster Foundation 導入運用手引書”を参照してください。
RMSのハートビート断が発生した場合
SysNodeがWait状態となるため、Wait状態をクリアしてください。
SysNodeの状態は、hvdisp -T <SysNode> で確認できます。
Wait状態のクリアについては、“PRIMECLUSTER RMS 導入運用手引書”を参照してください。