ページの先頭行へ戻る
PRIMECLUSTER  導入運用手引書 4.7

8.1.2 ハードウェアの削除

ハードウェアを削除する場合の作業手順について説明します。

8.1.2.1 共用ディスク装置の削除

共用ディスク装置を削除する場合は、事前に、削除する共用ディスク装置のリソースが含まれるクラスタアプリケーションを変更する必要があります。

図8.3 共用ディスク装置の削除手順

◆操作手順

  1. クラスタアプリケーションの変更

    削除対象の共用ディスク装置を使用している以下のリソースを、クラスタアプリケーションから削除します。

    • Fsystemリソース

    • Gdsリソース

    参照

    クラスタアプリケーションの構成を変更し、リソースを削除する方法については、“10.3 クラスタアプリケーションの変更”および“10.5 リソースの削除”を参照してください。

  2. GDSのオブジェクトの削除

    削除する共用ディスク装置に関連する、GDSのオブジェクトを削除します。

    参照

    GDSのオブジェクトの削除については、“PRIMECLUSTER Global Disk Services 説明書”の“構成削除”を参照してください。

  3. 共用ディスク装置のリソースのデバイス名を変更

    リソースを削除する前に、リソースに設定されているデバイス名を現在のデバイス名に更新します。以下のコマンドを実行してください。filepathには空のファイルを絶対パスで指定します。

    # /etc/opt/FJSVcluster/bin/clautoconfig -f filepath
  4. 共用ディスク装置のリソースの削除

    cldelrscコマンドを使用し、登録された共用ディスク装置のリソースを削除します。

    cldelrscコマンドについては、マニュアルページを参照してください。

    cldelrscコマンド実行後、リソースを削除したことをGDSに通知するため、以下のコマンドを実行します。filepathには空のファイルを絶対パスで指定します。

    # /etc/opt/FJSVcluster/bin/clautoconfig -f filepath

    注意

    • リソースを削除する共用ディスクがGDSのクラスに登録されている場合は、共用ディスクをGDSのクラスから削除した後、共用ディスクのリソースを削除してください。共用ディスクをGDSのクラスから削除する方法については、“PRIMECLUSTER Global Disk Services 説明書”を参照してください。

    • GDSの設定ファイル/etc/opt/FJSVsdx/sdx.cfにSDX_UDEV_USE=offが記述されている場合、clautoconfigコマンドは実行しないでください。

  5. 共用ディスク装置の削除

    12.2 保守作業の流れ”に従い、当社技術員(CE)に共用ディスク装置の削除を依頼してください。

  6. 共用ディスク装置のリソースのデバイス名を変更

    共用ディスク装置の削除によって、削除していない共用ディスク装置のデバイス名が変更されることがあります。共用ディスク装置のリソースのデバイス名を、実際のデバイス名に合わせて修正するため、以下のコマンドを実行します。filepathには空のファイルを絶対パスで指定します。

    # /etc/opt/FJSVcluster/bin/clautoconfig -f filepath

    注意

    GDSの設定ファイル/etc/opt/FJSVsdx/sdx.cfにSDX_UDEV_USE=offが記述されている場合、手順6は実行しないでください。

8.1.2.2 業務LAN/管理LANで使用するネットワークインタフェースカードの削除

業務LAN/管理LANで使用するネットワークインタフェースカードを削除する場合は、事前に、削除するネットワークインタフェースカードのリソースが含まれるクラスタアプリケーションを変更する必要があります。

図8.4 ネットワークインタフェースカードの削除手順

◆操作手順

  1. クラスタアプリケーションの変更

    削除対象のネットワークインタフェースカードを使用している以下のリソースを、クラスタアプリケーションから削除します。

    • 引継ぎネットワークリソース

    • Glsリソース

    参照

    クラスタアプリケーションの構成を変更し、リソースを削除する方法については、“10.3 クラスタアプリケーションの変更”および“10.5 リソースの削除”を参照してください。

  2. ネットワークインタフェースカードの削除

    12.2 保守作業の流れ”に従い、当社技術員(CE)にネットワークインタフェースカードの削除を依頼してください。

8.1.2.3 Dynamic Reconfigurationによる減設

PRIMECLUSTERシステム運用時に、Dynamic Reconfiguration (以降、DR)機能を使用してシステムボートを減設する場合の手順について説明します。

システムボードの活性減設を実施すると、PRIMECLUSTERの監視制御に影響を及ぼし、ノードが強制停止されることがあるため、以下の手順によりクラスタの監視機能を一時停止させてから行ってください。

注意

I/Oが搭載されているシステムボードに対してDRを行うことはできません。また、減設を行う場合には、事前にCPU、 メモリが減った状態で業務が継続できることを見積もっておく必要があります。

  1. PRIMECLUSTERのRMSを停止します。各ノードにおいてそれぞれ以下のようにhvshutコマンドを実行し、問合せに対して"yes"と答えてください。この操作によりPRIMECLUSTERのRMSは停止しますが、クラスタアプリケーションは稼働したままです。

    # hvshut -L
                                WARNING
                                -------
    The '-L' option of the hvshut command will shut down the RMS
    software without bringing down any of the applications.
    In this situation, it would be possible to bring up the same
    application on another node in the cluster which *may* cause
    data corruption.
    
    Do you wish to proceed ? (yes = shut down RMS / no = leave RMS running).
    yes
    
    NOTICE: User has been warned of 'hvshut -L' and has elected to proceed.
    

    さらに、各ノードにおいて/opt/SMAW/SMAWRrms/bin/hvenv.local ファイルの末尾に以下の1行を追加します。

    export HV_RCSTART=0

    上記手順は、RMSがOS起動直後に自動起動しないようにするために必要です。

  2. PRIMECLUSTERのシャットダウン機構を停止します。各ノードにおいてそれぞれ以下のようにsdtoolコマンドを実行してください。

    # sdtool -e
    LOG3.013806902801080028   11   6    30   4.6A00      SMAWsf           : RCSD returned a successful exit code for this command 
  3. PRIMECLUSTERのCFにおけるタイムアウト値を変更します。各ノードにおいてそれぞれ以下の操作を実行してください。

    • /etc/default/cluster.configに以下の設定を追加してください。

      CLUSTER_TIMEOUT "600"
    • 以下のコマンドを実行してください。

      # cfset -r
    • 正しくタイムアウト値が変更されたか確認してください。

      # cfset -g CLUSTER_TIMEOUT
      >From cfset configuration in CF module:
      Value for key: CLUSTER_TIMEOUT --->600
      #
  4. DRの操作を実施してください。

    参照

    DRの操作手順はハードウェアの関連マニュアルを参照してください。

  5. PRIMECLUSTERのCFにおけるタイムアウト値を元に戻します。各ノードにおいてそれぞれ以下の操作を実行してください。

    • 先に/etc/default/cluster.configに定義したCLUSTER_TIMEOUTの値を10に設定します。

      変更前:

      CLUSTER_TIMEOUT "600"

      変更後:

      CLUSTER_TIMEOUT "10"
    • 以下のコマンドを実行してください。

      # cfset -r
    • 正しくタイムアウト値が変更されたか確認してください。

      # cfset -g CLUSTER_TIMEOUT
      >From cfset configuration in CF module:
      Value for key: CLUSTER_TIMEOUT --->10
      #
  6. PRIMECLUSTERのシャットダウン機構を起動します。各ノードにおいてそれぞれ以下のようにsdtoolコマンドを実行してください。

    # sdtool -b
  7. PRIMECLUSTERのシャットダウン機構が起動していることを確認します。(以下、2ノード構成の場合の出力例)

    # sdtool -s
    Cluster Host    Agent                SA State      Shut State  Test State  Init State
    ------------    -----                --------      ----------  ----------  ----------
    node0           SA_mmbp.so           Idle          Unknown     TestWorked  InitWorked
    node0           SA_mmbr.so           Idle          Unknown     TestWorked  InitWorked
    node1           SA_mmbp.so           Idle          Unknown     TestWorked  InitWorked
    node1           SA_mmbr.so           Idle          Unknown     TestWorked  InitWorked
  8. PRIMECLUSTERのRMSを起動します。各ノードにおいてそれぞれ以下のようにhvcmコマンドを実行してください。

    # hvcm 
    Starting Reliant Monitor Services now
  9. PRIMECLUSTERのRMSが起動していることを確認します。Cluster AdminのRMSメインウィンドウにおいて、各ノードの状態表示アイコンが緑色(Online)になっていることを確認してください。

    最後に、各ノードにおいて/opt/SMAW/SMAWRrms/bin/hvenv.localファイルから以下の行を削除します。

    export HV_RCSTART=0

注意

  • DRを使用する予定がある場合は、クラスタシステムの構築段階で必ず上記のテストを実施し、問題がないことを確認してください。

  • 上記の手順1の完了後から手順7の完了後までの間に、ハードウェア異常等の原因でDR実行中のノードの異常終了(パニックやリセット等)やハングアップが発生した場合、以下の手順に従い、DR実行中のノードで稼働していたクラスタアプリケーションを待機ノードで起動する必要があります。

    1. ハングアップが発生している場合は当該ノードを強制的に停止させ、ノードが稼働していないことを確認してください。

    2. 異常が発生していないいずれかのノードにおいて、cftoolコマンドを実行し、異常が発生したノードのノード番号とCFノード名を入力することでDOWNマークを付けてください。ただし、“cftool -n”コマンドの結果で、異常が発生したノードの状態がLEFTCLUSTERとなっていない場合、LEFTCLUSTERになるのを待ってから“cftool -k”コマンドを実行してください。

      # cftool -n
      Node  Number State         Os       Cpu
      node0 1       UP           Linux    EM64T
      node1 2       LEFTCLUSTER  Linux    EM64T
      # cftool -k
      This option will declare a node down. Declaring an operational
      node down can result in catastrophic consequences, including
      loss of data in the worst case.
      If you do not wish to declare a node down, quit this program now.
      
      Enter node number: 2
      Enter name for node #2: node1
      cftool(down): declaring node #2 (node1) down
      cftool(down): node node1 is down
      # cftool -n
      Node  Number State        Os        Cpu
      node0 1       UP          Linux     EM64T
      node1 2       DOWN        Linux     EM64T 
      #
    3. 異常が発生していないすべてのノードで手順5~手順9を実行し、RMSを起動してください。運用・待機構成のクラスタアプリケーションの場合、"hvswitch -f "コマンドを実行してクラスタアプリケーションを強制起動してください。詳細は“PRIMECLUSTER 活用ガイド<コマンドリファレンス編>”hvswitchの-fオプションの説明を参照してください。

      # hvswitch -f userApplication
      The use of the -f (force) flag could cause your data to be corrupted and could cause your node to be killed. Do not continue if the result
      of this forced command is not clear.
      The use of force flag of hvswitch overrides the RMS internal security mechanism. In particular RMS does no longer prevent resources,
      which have been marked as "ClusterExclusive", from coming Online on more than one host in the cluster. It is recommended to double
      check the state of all affected resources before continuing.
      IMPORTANT: This command may kill nodes on which RMS is not running in order to reduce the risk of data corruption!
      Ensure that RMS is running on all other nodes. Or shut down OS of the node on which RMS is not running.
      Do you wish to proceed ? (default: no) [yes, no]:yes
      #
    4. 異常が発生していたノードの復旧後、当該ノードで手順5~手順9を実行し、RMSを起動してください。