ページの先頭行へ戻る
PRIMECLUSTER 導入運用手引書 4.6
FUJITSU Software

7.6 CF と RMS のハートビートについて

PRIMECLUSTER は、CF と RMS それぞれでハートビートを行います。それぞれが検出するハートビート異常の種類と、ハートビートタイムアウト検出時間(デフォルト)を以下に記載します。

表7.2 ハートビートで検出する異常とハートビートタイムアウト検出時間(CF と RMS)

ハートビートで検出する異常の種類

ハートビートタイムアウト検出時間
(デフォルト)

CF

  • カーネル層レベルのシステムハング

  • クラスタインタコネクトの全パス異常

  • 相手ノードのパニックやリセット(*1)

10 秒

RMS

  • ユーザ層(アプリケーション層)レベルのシステムハング

  • 相手ノードの RMS 異常停止(*2、*3)

600 秒

(*1): PRIMECLUSTER の非同期監視を利用している場合、非同期監視が即時検出します。

(*2): RMS のハートビートであるELM ハートビートが即時検出します。

(*3): 例としてリソースの二重故障があります。リソースの二重故障については、“PRIMECLUSTER 活用ガイド<トラブルシューティング編>”の“10.3 二重故障(Double Fault)”を参照してください。

注意

  • CF のハートビートが検出する異常は業務への影響が大きいため、ハートビートタイムアウト検出時間(以下、検出時間)のデフォルトを、RMS の検出時間より短くしています。

    RMS の検出時間を CF の検出時間より短くした場合、RMS 起動時に以下の警告メッセージが出力されます。

    (BM, 4) The CF cluster timeout <cftimeout> exceeds the RMS timeout <rmstimeout>. This may result in RMS node elimination request before CF timeout is exceeded. Please check the CF timeout specified in /etc/default/cluster.config and the RMS heartbeat miss time specified by hvcm '-h' option.

  • I/Oフェンシング機能+ICMPシャットダウンエージェントを使用した構成で、以下のようなサブシステムハングが発生した場合、運用ノードのパニックや強制停止ができず、待機ノードへの自動切替えが行われません。

    • CFのハートビート断またはRMSのハートビート断が発生、かつ、

    • ICMPシャットダウンエージェントに指定されたネットワーク経路で運用ノードからのping応答がある場合

    そのため、このような異常が発生した場合、以下の対処を実施して業務の切替えを行う必要があります。

    • CFのハートビート断が発生した場合

      CFがLEFTCLUSTER状態となるため、LEFTCLUSTER状態を回復してください。

      LEFTCLUSTER状態については、“PRIMECLUSTER Cluster Foundation 導入運用手引書”を参照してください。

    • RMSのハートビート断が発生した場合

      SysNodeがWait状態となるため、Wait状態をクリアしてください。

      SysNodeの状態は、hvdisp -T <SysNode> で確認できます。

      Wait状態のクリアについては、“PRIMECLUSTER RMS 導入運用手引書”を参照してください。