7.6 CF と RMS のハートビートについて

PRIMECLUSTER は、CF と RMS それぞれでハートビートを行います。それぞれが検出するハートビート異常の種類と、ハートビートタイムアウト検出時間(デフォルト)を以下に記載します。

表7.2 ハートビートで検出する異常とハートビートタイムアウト検出時間(CF と RMS)
	ハートビートで検出する異常の種類	ハートビートタイムアウト検出時間 (デフォルト)
CF	カーネル層レベルのシステムハングクラスタインタコネクトの全パス異常相手ノードのパニックやリセット(*1)	10 秒
RMS	ユーザ層(アプリケーション層)レベルのシステムハング相手ノードの RMS 異常停止(2、3)	600 秒

(*1): PRIMECLUSTER の非同期監視を利用している場合、非同期監視が即時検出します。

(*2): RMS のハートビートであるELM ハートビートが即時検出します。

(*3): 例としてリソースの二重故障があります。リソースの二重故障については、“PRIMECLUSTER 活用ガイド＜トラブルシューティング編＞”の“10.3 二重故障(Double Fault)”を参照してください。

注意

CF のハートビートが検出する異常は業務への影響が大きいため、ハートビートタイムアウト検出時間(以下、検出時間)のデフォルトを、RMS の検出時間より短くしています。
RMS の検出時間を CF の検出時間より短くした場合、RMS 起動時に以下の警告メッセージが出力されます。
(BM, 4) The CF cluster timeout <cftimeout> exceeds the RMS timeout <rmstimeout>. This may result in RMS node elimination request before CF timeout is exceeded. Please check the CF timeout specified in /etc/default/cluster.config and the RMS heartbeat miss time specified by hvcm '-h' option.
I/Oフェンシング機能＋ICMPシャットダウンエージェントを使用した構成で、以下のようなサブシステムハングが発生した場合、運用ノードのパニックや強制停止ができず、待機ノードへの自動切替えが行われません。
- CFのハートビート断またはRMSのハートビート断が発生、かつ、
- ICMPシャットダウンエージェントに指定されたネットワーク経路で運用ノードからのping応答がある場合
そのため、このような異常が発生した場合、以下の対処を実施して業務の切替えを行う必要があります。
- CFのハートビート断が発生した場合
  CFがLEFTCLUSTER状態となるため、LEFTCLUSTER状態を回復してください。
  LEFTCLUSTER状態については、“PRIMECLUSTER Cluster Foundation 導入運用手引書”を参照してください。
- RMSのハートビート断が発生した場合
  SysNodeがWait状態となるため、Wait状態をクリアしてください。
  SysNodeの状態は、hvdisp -T <SysNode> で確認できます。
  Wait状態のクリアについては、“PRIMECLUSTER RMS 導入運用手引書”を参照してください。