8.12.4 Dynamic Reconfigurationによる増設

PRIMECLUSTERシステム運用時に、Dynamic Reconfiguration (以降、DR)機能を使用してシステムボートを増設する場合の手順について説明します。

システムボードの活性増設を実施すると、PRIMECLUSTERの監視制御に影響を及ぼし、ノードが強制停止されることがあるため、以下の手順によりクラスタの監視機能を一時停止させてから行ってください。

PRIMECLUSTERのRMSを停止します。各ノードにおいてそれぞれ以下のようにhvshutコマンドを実行し、問合せに対して"yes"と答えてください。この操作によりPRIMECLUSTERのRMSは停止しますが、クラスタアプリケーションは稼働したままです。

# hvshut -L
                            WARNING
                            -------
The '-L' option of the hvshut command will shut down the RMS
software without bringing down any of the applications.
In this situation, it would be possible to bring up the same
application on another node in the cluster which *may* cause
data corruption.

Do you wish to proceed ? (yes = shut down RMS / no = leave RMS running).
yes

NOTICE: User has been warned of 'hvshut -L' and has elected to proceed.

さらに、各ノードにおいて/opt/SMAW/SMAWRrms/bin/hvenv.local ファイルの末尾に以下の1行を追加します。

export HV_RCSTART=0

上記手順は、RMSがOS起動直後に自動起動しないようにするために必要です。

PRIMECLUSTERのシャットダウン機構を停止します。各ノードにおいてそれぞれ以下のようにsdtoolコマンドを実行してください。
```
# sdtool -e
LOG3.013806902801080028   11   6    30   4.3A30      SMAWsf           : RCSD returned a successful exit code for this command 
```
PRIMECLUSTERのCFにおけるタイムアウト値を変更します。各ノードにおいてそれぞれ以下の操作を実行してください。
- /etc/default/cluster.configに以下の設定を追加してください。
```
CLUSTER_TIMEOUT "600"
```
- 以下のコマンドを実行してください。
```
# cfset -r
```
- 正しくタイムアウト値が変更されたか確認してください。
```
# cfset -g CLUSTER_TIMEOUT
>From cfset configuration in CF module:
Value for key: CLUSTER_TIMEOUT --->600
#
```
DRの操作を実施してください。
PRIMECLUSTERのCFにおけるタイムアウト値を元に戻します。各ノードにおいてそれぞれ以下の操作を実行してください。
- 先に/etc/default/cluster.configに定義したCLUSTER_TIMEOUTの値を10に設定します。
  変更前:
```
CLUSTER_TIMEOUT "600"
```
  変更後:
```
CLUSTER_TIMEOUT "10"
```
- 以下のコマンドを実行してください。
```
# cfset -r
```
- 正しくタイムアウト値が変更されたか確認してください。
```
# cfset -g CLUSTER_TIMEOUT
>From cfset configuration in CF module:
Value for key: CLUSTER_TIMEOUT --->10
#
```
PRIMECLUSTERのシャットダウン機構を起動します。各ノードにおいてそれぞれ以下のようにsdtoolコマンドを実行してください。
```
# sdtool -b
```

PRIMECLUSTERのシャットダウン機構が起動していることを確認します。(以下、2ノード構成の場合の出力例)

# sdtool -s

Cluster Host    Agent                SA State      Shut State  Test State  Init State
------------    -----                --------      ----------  ----------  ----------
node0           SA_mmbp.so           Idle          Unknown     TestWorked  InitWorked
node0           SA_mmbr.so           Idle          Unknown     TestWorked  InitWorked
node1           SA_mmbp.so           Idle          Unknown     TestWorked  InitWorked
node1           SA_mmbr.so           Idle          Unknown     TestWorked  InitWorked

PRIMECLUSTERのRMSを起動します。各ノードにおいてそれぞれ以下のようにhvcmコマンドを実行してください。
```
# hvcm 
Starting Reliant Monitor Services now
```
PRIMECLUSTERのRMSが起動していることを確認します。Cluster AdminのRMSメインウィンドウにおいて、各ノードの状態表示アイコンが緑色(Online)になっていることを確認してください。
最後に、各ノードにおいて/opt/SMAW/SMAWRrms/bin/hvenv.localファイルから以下の行を削除します。
```
export HV_RCSTART=0
```

注意

DRを使用する予定がある場合は、クラスタシステムの構築段階で必ず上記のテストを実施し、問題がないことを確認してください。
上記の手順1の完了後から手順7の完了後までの間に、ハードウェア異常等の原因でDR実行中のノードの異常終了(パニックやリセット等)やハングアップが発生した場合、以下の手順に従い、DR実行中のノードで稼働していたクラスタアプリケーションを待機ノードで起動する必要があります。
1. ハングアップが発生している場合は当該ノードを強制的に停止させ、ノードが稼働していないことを確認してください。
2. 異常が発生していないいずれかのノードにおいて、cftoolコマンドを実行し、異常が発生したノードのノード番号とCFノード名を入力することでDOWNマークを付けてください。ただし、“cftool -n”コマンドの結果で、異常が発生したノードの状態がLEFTCLUSTERとなっていない場合、LEFTCLUSTERになるのを待ってから“cftool -k”コマンドを実行してください。
```
# cftool -n
Node  Number State         Os       Cpu
node0 1       UP           Linux    EM64T
node1 2       LEFTCLUSTER  Linux    EM64T
# cftool -k
This option will declare a node down. Declaring an operational
node down can result in catastrophic consequences, including
loss of data in the worst case.
If you do not wish to declare a node down, quit this program now.

Enter node number: 2
Enter name for node #2: node1
cftool(down): declaring node #2 (node1) down
cftool(down): node node1 is down
# cftool -n
Node  Number State        Os        Cpu
node0 1       UP          Linux     EM64T
node1 2       DOWN        Linux     EM64T 
#
```
3. 異常が発生していない全てのノードで手順5～手順9を実行し、RMSを起動してください。運用・待機構成のクラスタアプリケーションの場合、RMS起動時に以下の応答メッセージが表示されるため、"yes"と答えてください（本メッセージの詳細は、“PRIMECLUSTER 活用ガイド <メッセージ集>”を参照してください）。
```
クラスタアプリケーション "userApplication" は、クラスタアプリケーションを構成
するすべての SysNode が所定時間内に起動しなかったため、自動起動しませんでした。
クラスタアプリケーションを SysNode " SysNode " で強制起動できます。
警告: 強制起動を行う場合、クラスタを構成するすべてのノードでRMSが起動している
か確認し、起動していないノードは、手動でシャットダウンしてから行ってください。
強制起動では、複数ノードからの同時アクセスによるデータ破損のリスクがあります。
そのリスクを低減するため、RMSが起動していないノードを強制停止する場合があります。
強制起動してもよろしいですか ? (yes/no) メッセージ番号:number
```
  備考）オペレータ介入メッセージはインストール時デフォルトでは機能しません。
  “5.2 故障リソース特定とオペレータ介入要求の設定”に示す方法により、本機能を設定しておく必要があります。設定されていない場合は、hvswitchコマンドの操作が必要です。詳細はhvswitchのオンラインマニュアルの-fオプションの説明を参照してください。
4. 異常が発生していたノードの復旧後、当該ノードで手順5～手順9を実行し、RMSを起動してください。