ページの先頭行へ戻る
PRIMECLUSTER DR/PCI Hot Plug ユーザーズガイド

4.2.2 注意事項

4.2.2.1 リアルタイムプロセスに関する応答メッセージ

PRIMECLUSTERでは、一部のプロセスをリアルタイムクラスで動作させています。このため、DRによるシステムボードの追加、削除を行うと、以下の応答メッセージが表示されます。

Dec 25 21:12:41 Real time processes[pid= 4038 4218 4216 4286 4286 4286 4286 4046 4220 4134 4134 4134 
4134 4134 4214 4221 4228 4287 4256 4291 4290 4288 4289 5350 12946 12946 12946 12946 12946 12946 12946 
12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 
12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 
12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946 12946] is running. 
Do you continue DR ? [YES]/[NO]

表示されているプロセスIDが、PRIMECLUSTERのデーモンのものであることを確認し、yesと入力することでDRを継続してください。(マルチスレッドで動作しているプロセスは、同じプロセスIDが重複して表示されます。)

PRIMECLUSTERで起動するリアルタイムプロセスには、以下のものがあります。

DRを頻繁に行う場合や、処理を自動化したい場合には、連携スクリプトを作成しdr_confコマンドを利用することで、この応答を不要にすることができます。詳しくは“DRユーザーズガイド”を参照してください。

4.2.2.2 DR中に出力されるメッセージ

DR中にRMSが一時停止することがあるため、以下の警告メッセージが表示される場合があります。

 (SYS, 88): WARNING: No heartbeat from cluster host node0RMS within the last 10 seconds. 
This may be a temporary problem caused by high system load. RMS will react if this problem persists for 590 seconds more.

このメッセージはRMSのハートビートが一時的に途切れたことを示しています。DR中に表示された場合は、対処の必要はありませんので、無視してください。

4.2.2.3 業務負荷がある状態でDRを実施する場合の手順

システムに負荷がある状態でDRによるシステムボードの活性交換、活性増設、移動を実施すると、OS負荷によりPRIMECLUSTERの監視制御に影響を及ぼし、ノードが強制停止されることがあります。

業務継続させながらシステム負荷のある状態でDRを実施する必要がある場合、以下の手順によりクラスタの監視機能を一時停止させてから行ってください。

  1. PRIMECLUSTERの構成定義ファイルの名前を確認します。PRIMECLUSTERのRMSが起動しているノードにおいて、hvdisp -nコマンドを実行します。以下の例では、構成定義ファイル名は"config.us"です。

    # hvdisp -n
    /opt/SMAW/SMAWRrms/build/config.us
    #
  2. PRIMECLUSTER RMSを停止します。各ノードにおいてそれぞれ以下のようにhvshutコマンドを実行し、問合せに対して"yes"と答えてください。この操作によりPRIMECLUSTERのRMSは停止しますが、クラスタアプリケーションに定義されているアプリケーションは稼働したままです。

    # hvshut -L
                                WARNING
                                -------
    The '-L' option of the hvshut command will shut down the RMS
    software without bringing down any of the applications.
    In this situation, it would be possible to bring up the same
    application on another node in the cluster which *may* cause
    data corruption.
    
    Do you wish to proceed ? (yes = shut down RMS / no = leave RMS running).
    yes
    
    NOTICE: User has been warned of 'hvshut -L' and has elected to proceed.
    

    さらに、/opt/SMAW/SMAWRrms/bin/hvenv.local ファイルに以下の 1 行を追加します。

    export HV_RCSTART=0

    上記手順は、RMS が OS 起動直後に自動起動しないようにするために必要です。

  3. PRIMECLUSTERのシャットダウン機構を停止します。各ノードにおいてそれぞれ以下のようにsdtoolコマンドを実行してください。

    # sdtool -e
    (SMAWsf, 30, 11) : RCSD returned a successful exit code for this command
  4. PRIMECLUSTERのCFにおけるタイムアウト値を変更します。各ノードにおいてそれぞれ以下の操作を実行してください。

    • /etc/default/cluster.configに以下の設定を追加してください。

      CLUSTER_TIMEOUT "600"
    • 以下のコマンドを実行してください。

      # cfset -r
    • 正しくタイムアウト値が変更されたか確認してください。

      # cfset -g CLUSTER_TIMEOUT
      >From cfset configuration in CF module:
      Value for key: CLUSTER_TIMEOUT --->600
      #
  5. DRの操作を実施してください。

  6. PRIMECLUSTERのCFにおけるタイムアウト値を元に戻します。各ノードにおいてそれぞれ以下の操作を実行してください。

    • 先に/etc/default/cluster.configに定義したCLUSTER_TIMEOUTの値を10に設定します。

      変更前:

      CLUSTER_TIMEOUT "600"

      変更後:

      CLUSTER_TIMEOUT "10"
    • 以下のコマンドを実行してください。

      # cfset -r
    • 正しくタイムアウト値が変更されたか確認してください。

      # cfset -g CLUSTER_TIMEOUT
      >From cfset configuration in CF module:
      Value for key: CLUSTER_TIMEOUT --->10
      #
  7. PRIMECLUSTERのシャットダウン機構を起動します。各ノードにおいてそれぞれ以下のようにsdtoolコマンドを実行してください。

    # sdtool -b
  8. PRIMECLUSTERのシャットダウン機構が起動していることを確認します。

    Cluster AdminのCFメインウィンドウにおいて、[ツール]メニューの[シャットダウン機構]-[状態の表示]を選択し、各ノードにおいてシャットダウン機構の構成状態が表示されることを確認してください。

  9. PRIMECLUSTERのRMSを起動します。各ノードにおいてそれぞれ以下のようにhvcmコマンドを実行してください。この時、-cオプションには前述の手順1)で控えたRMS構成定義ファイルの名前を指定してください。例えば、構成定義ファイル名が"config.us"であった場合、-cオプションには"config"を指定します。

    # hvcm -c config
    Starting Reliant Monitor Services now
  10. PRIMECLUSTERのRMSが起動していることを確認します。Cluster AdminのRMSメインウィンドウにおいて、各ノードの状態表示アイコンが緑色(Online) になっていることを確認してください。

    最後に、/opt/SMAW/SMAWRrms/bin/hvenv.local ファイルから以下の行を削除します。

    export HV_RCSTART=0

注意

  • DRを使用する予定がある場合は、クラスタシステムの構築段階で必ず上記のテストを実施し、問題がないことを確認してください。

  • 上記の手順3の完了後から手順7の完了後までの間に、ハードウェア異常等の原因でノードの異常終了(パニックやリセット等)やハングアップが発生した場合、または、CFのタイムアウトによりノードの状態がLEFTCLUSTERとなった場合は、待機側のクラスタアプリケーションを起動する必要があります。

    • ノードの異常終了(パニックやリセット等)やハングアップが発生した場合は当該ノードを強制的に停止させてください。その後、異常が発生したノードがLEFTCLUSTER状態になるまで待ち合わせてください。上記の4の手順で変更したタイムアウト値の秒数だけ待ち合わせる必要があります。

      異常の発生したノードが稼働していないことを確認後、以下の手順を実施してください。

      1. PRIMECLUSTERのCFのタイムアウト値を上記の6の手順で戻してください。

      2. PRIMECLUSTERのシャットダウン機構を上記の7の手順で起動してください。

      3. 異常が発生したノードがDOWN状態になっていない場合、sdtool -k <相手ノードのCFノード名>コマンドを実行し、相手ノードをDOWN状態にしてください。

        # cftool -n
        Node    Number State       Os      Cpu
        node0   1      UP          Solaris Sparc
        node1   2      LEFTCLUSTER Solaris Sparc
        # sdtool -k node1
        LOG3.013944205091080028 20 6 30 4.3A20 SMAWsf : RCSD returned a successful exit code for
        this command(sdtool -k node1)
        # cftool -n
        Node    Number State       Os      Cpu
        node0   1      UP          Solaris Sparc
        node1   2      DOWN        Solaris Sparc
        #

        異常が発生したノードがUP状態のままになっている場合、sdtool -kコマンドが失敗します。

        異常が発生したノードがLEFTCLUSTER状態になるまで待ち合わせてください。

      4. PRIMECLUSTERのRMSは上記の9の手順で起動してください。

      5. 運用・待機構成のクラスタアプリケーションの場合、“hvswitch -f”コマンドを実行してクラスタアプリケーションを強制起動してください。詳細は“PRIMECLUSTER活用ガイド<コマンドリファレンス編>”のhvswitchコマンドの-fオプションの説明を参照してください。

        # hvswitch -f <userApplication>
        The use of the -f (force) flag could cause your data to be corrupted and could cause your node to be killed. Do not continue if the result of this forced command is not clear. The use of force flag of hvswitch overrides the RMS internal security mechanism. In particular RMS does no longer prevent resources, which have been marked as "ClusterExclusive", from coming Online on more than one host in the cluster. It is recommended to double check the state of all affected resources before continuing. IMPORTANT: This command may kill nodes on which RMS is not running in order to reduce the risk of data corruption! Ensure that RMS is running on all other nodes. Or shut down OS of the node on which RMS is not running. Do you wish to proceed ? (default: no) [yes, no]:yes
      6. /opt/SMAW/SMAWRrms/bin/hvenv.local ファイルから以下の行を削除します。

        export HV_RCSTART=0
    • LEFTCLUSTERとなった場合は以下の手順でLEFTCLUSTERを解消してください。

      1. “PRIMECLUSTER CF導入運用手引書”の“6.2.3 クラスタパーティションが発生した場合”を参照し、手動でLEFTCLUSTERを解消してください。

      2. PRIMECLUSTERのCFのタイムアウト値を上記の6の手順で戻してください。

      3. PRIMECLUSTERのシャットダウン機構を上記の7の手順で起動してください。

      4. PRIMECLUSTERのRMSは上記の9の手順で起動してください。

      5. 運用・待機構成のクラスタアプリケーションの場合、“hvswitch -f”コマンドを実行してクラスタアプリケーションを強制起動してください。詳細は“PRIMECLUSTER活用ガイド<コマンドリファレンス編>”のhvswitchコマンドの-fオプションの説明を参照してください。

        # hvswitch -f <userApplication>
        The use of the -f (force) flag could cause your data to be corrupted and could cause your node to be killed. Do not continue if the result of this forced command is not clear. The use of force flag of hvswitch overrides the RMS internal security mechanism. In particular RMS does no longer prevent resources, which have been marked as "ClusterExclusive", from coming Online on more than one host in the cluster. It is recommended to double check the state of all affected resources before continuing. IMPORTANT: This command may kill nodes on which RMS is not running in order to reduce the risk of data corruption! Ensure that RMS is running on all other nodes. Or shut down OS of the node on which RMS is not running. Do you wish to proceed ? (default: no) [yes, no]:yes
      6. /opt/SMAW/SMAWRrms/bin/hvenv.local ファイルから以下の行を削除します。

        export HV_RCSTART=0
  • クラスタシステムでは、DRを時刻指定などで無人で実行するような運用はできません。