DRを実施すると、システムの一時停止(suspend)によりPRIMECLUSTERの監視制御に影響をおよぼし、ノードが強制停止される可能性があります。そのため、クラスタの監視機能を一時停止させてからDRを行う必要があります。
Oracle VM Server for SPARC環境では、PRIMECLUSTERが構築されているすべてのゲストドメイン、制御ドメインで、DR前後の操作を行ってください。
注意
DRによるシステムの一時停止(suspend)中は業務が停止しますので、業務停止を回避したい場合は、あらかじめ業務のフェイルオーバーまたは縮退により、DRを行わないノードで業務を継続した状態で、待機ノードのDRを実施してください。
DR実行時に、システムが一時停止(suspend)する時間をあらかじめ見積もってから作業してください。
クラスタシステムでは、DRを時刻指定などで無人で実行するような運用はできません。
以下の手順でDRの操作を実施します。
クラスタインタコネクトに対応するデバイス名を確認します。
クラスタインタコネクトに対応するデバイスを削除、交換する場合は、削除、交換の対象ではないデバイスが1つ以上存在し、かつ、状態(State)が"UP"となっていることを確認します。
# cftool -d
Number Device Type Speed Mtu State Configured Address
1 /dev/igb1 4 100 1432 UP YES 00.00.0e.25.1a.38
2 /dev/igb7 4 100 1432 UP YES 00.00.0e.25.1a.38
クラスタインタコネクトに対応するデバイスを削除、交換する場合は、クラスタインタコネクトから切り離します。
# cfrecon -d <デバイス名>
GDSを使用している構成で活性交換を行う場合は、“2.2.1 ディスクの切離し”を参照し、ディスクをGDSクラスから切離します。
GLSを使用している構成で活性交換を行う場合は、“3.2 DRによるシステムボードの活性交換”を参照し、冗長構成からの切離しを実施します。
システムボードの削除、交換、移動を行う場合は、システムボードを物理パーティションから切り離す前までの手順を実施します。システムボードの削除、交換、移動に伴うドメインの再起動が必要な場合は、以降のPRIMECLUSTERの監視機能の停止、変更前に実施してください。システムボードの削除、交換、移動手順の詳細については、“SPARC M10 システム ドメイン構築ガイド”を参照してください。
PRIMECLUSTERの構成定義ファイルの名前を確認します。PRIMECLUSTERのRMSが起動しているノードにおいて、hvdisp -nコマンドを実行します。以下の例では、構成定義ファイル名は"config.us"です。
# hvdisp -n
/opt/SMAW/SMAWRrms/build/config.us
#
PRIMECLUSTER RMSを停止します。すべてのノードで、以下のようにhvshutコマンドを実行し、問合せに対して"yes"と答えてください。この操作によりPRIMECLUSTERのRMSは停止しますが、クラスタアプリケーションに定義されているアプリケーションは稼働したままです。
# hvshut -L
WARNING
-------
The '-L' option of the hvshut command will shut down the RMS
software without bringing down any of the applications.
In this situation, it would be possible to bring up the same
application on another node in the cluster which *may* cause
data corruption.
Do you wish to proceed ? (yes = shut down RMS / no = leave RMS running).
yes
NOTICE: User has been warned of 'hvshut -L' and has elected to proceed.
さらに、/opt/SMAW/SMAWRrms/bin/hvenv.local ファイルに以下の 1 行を追加します。
export HV_RCSTART=0
上記手順は、RMS が OS 起動直後に自動起動しないようにするために必要です。
PRIMECLUSTERのシャットダウン機構を停止します。すべてのノードで、以下のようにsdtoolコマンドを実行してください。
# sdtool -e
(SMAWsf, 30, 11) : RCSD returned a successful exit code for this command
PRIMECLUSTERのCFにおけるタイムアウト値を変更します。すべてのノードで、以下の操作を実行してください。
設定されているタイムアウト値を確認します。(設定を戻す時に使用します)
# cfset -g CLUSTER_TIMEOUT
>From cfset configuration in CF module:
Value for key: CLUSTER_TIMEOUT --->10
#
以下のようなメッセージが表示された場合は、タイムアウト値は10秒(初期値)になります。
# cfset -g CLUSTER_TIMEOUT
cfset: No matching key found in CF Module
#
/etc/default/cluster.configに以下の設定を追加します。
CLUSTER_TIMEOUT "timeout"
timeout(秒) = DRによりシステムが一時停止(suspend)する時間 + DRの操作時間
以下のコマンドを実行します。
# cfset -r
正しくタイムアウト値が変更されたか確認します。
# cfset -g CLUSTER_TIMEOUT >From cfset configuration in CF module: Value for key: CLUSTER_TIMEOUT --->timeout #
システムボードの追加、削除、交換、移動を実施します。
追加の場合は、システムボードを物理パーティションに組み込み、論理ドメインの稼働状況を確認するまでの手順を実施します。
削除の場合は、システムボードを物理パーティションから切り離します。
交換の場合は、システムボードを物理パーティションから切り離し、交換後、システムボードを物理パーティションに組み込み、論理ドメインの稼働状況を確認するまでの手順を実施します。
移動はそれぞれ、追加、削除の手順を実施します。
システムボードの追加、削除、交換、移動手順の詳細については、“SPARC M10 システム ドメイン構築ガイド”を参照してください。
PRIMECLUSTERのCFにおけるタイムアウト値を元に戻します。すべてのノードで、以下の操作を実行してください。
先に/etc/default/cluster.configに定義したCLUSTER_TIMEOUTの値を手順9で確認したタイムアウト値に戻します。
変更前:
CLUSTER_TIMEOUT "timeout"
timeout(秒) = 手順9で設定したタイムアウト時間
変更後: (元のタイムアウト値が10の場合)
CLUSTER_TIMEOUT "10"
以下のコマンドを実行します。
# cfset -r
正しくタイムアウト値が変更されたか確認します。
# cfset -g CLUSTER_TIMEOUT
>From cfset configuration in CF module:
Value for key: CLUSTER_TIMEOUT --->10
#
1BB(ビルディングブロック)構成から複数BB構成に増設した場合は、“PRIMECLUSTER導入運用手引書”の“5.1.2.1.3 シャットダウン構成ウィザードによる設定”を参照して、シャットダウン機構に登録したXSCFのIPアドレスを、XSCFの引継ぎIPアドレスで再設定してください。
PRIMECLUSTERのシャットダウン機構を起動します。すべてのノード、以下のようにsdtoolコマンドを実行してください。
# sdtool -b
PRIMECLUSTERのシャットダウン機構が起動していることを確認します。
Cluster AdminのCFメインウィンドウにおいて、[ツール]メニューの[シャットダウン機構]-[状態の表示]を選択し、各ノードにおいてシャットダウン機構の構成状態が表示されることを確認してください。
PRIMECLUSTERのRMSを起動します。すべてのノードで、以下のようにhvcmコマンドを実行してください。この時、-cオプションには手順6で控えたRMS構成定義ファイルの名前を指定してください。例えば、構成定義ファイル名が"config.us"であった場合、-cオプションには"config"を指定します。
# hvcm -c config
Starting Reliant Monitor Services now
PRIMECLUSTERのRMSが起動していることを確認します。Cluster AdminのRMSメインウィンドウにおいて、各ノードの状態表示アイコンが緑色(Online) になっていることを確認してください。
最後に、/opt/SMAW/SMAWRrms/bin/hvenv.local ファイルから以下の行を削除します。
export HV_RCSTART=0
システムボードの追加、交換、移動を行う場合は、I/Oデバイスの使用を再開する手順以降の操作を実施します。システムボードの追加、交換、移動手順の詳細については、“SPARC M10 システム ドメイン構築ガイド”を参照してください。
手順4で冗長構成からの切離しを実施した場合は、“3.2 DRによるシステムボードの活性交換”を参照し、冗長構成への組込みを実施します。
手順3でディスクの切離しを行った場合は、“2.2.3 ディスクの再組込み”を参照し、切り離したディスクを再組込みします。
クラスタインタコネクトに対応するデバイスを追加、交換する場合は、クラスタインタコネクトへの組込みを行います。
# cfrecon -a <デバイス名>
注意
PRIMECLUSTERのRMSの監視を停止している間に、ハードウェア異常等の原因でノードの異常終了(パニックやリセット等)やハングアップが発生した場合、または、CFのタイムアウトによりノードの状態がLEFTCLUSTERとなった場合は、待機側のクラスタアプリケーションを起動する必要があります。
ノードの異常終了(パニックやリセット等)やハングアップが発生した場合は当該ノードを強制的に停止させてください。その後、異常が発生したノードがLEFTCLUSTER状態になるまで待ち合わせてください。上記の9の手順で変更したタイムアウト値の秒数だけ待ち合わせる必要があります。
異常の発生したノードが稼働していないことを確認後、以下の手順を実施してください。
PRIMECLUSTERのCFのタイムアウト値を上記の11の手順で戻してください。
PRIMECLUSTERのシャットダウン機構を上記の13の手順で起動してください。
異常が発生したノードがDOWN状態になっていない場合、sdtool -k <相手ノードのCFノード名>コマンドを実行し相手ノードをDOWN状態にしてください。
# cftool -n Node Number State Os Cpu node0 1 UP Solaris Sparc node1 2 LEFTCLUSTER Solaris Sparc # sdtool -k node1 LOG3.013944205091080028 20 6 30 4.3A20 SMAWsf : RCSD returned a successful exit code for this command(sdtool -k node1) # cftool -n Node Number State Os Cpu node0 1 UP Solaris Sparc node1 2 DOWN Solaris Sparc #
異常が発生したノードがUP状態のままになっている場合、sdtool -kコマンドが失敗します。
異常が発生したノードがLEFTCLUSTER状態になるまで待ち合わせてください。
PRIMECLUSTERのRMSは上記の15の手順で起動してください。
運用・待機構成のクラスタアプリケーションの場合、“hvswitch -f”コマンドを実行してクラスタアプリケーションを強制起動してください。詳細は“PRIMECLUSTER活用ガイド<コマンドリファレンス編>”のhvswitchコマンドの-fオプションの説明を参照してください。
# hvswitch -f <userApplication>
The use of the -f (force) flag could cause your data to be corrupted and could cause your node to be killed. Do not continue if the result of this forced command is not clear. The use of force flag of hvswitch overrides the RMS internal security mechanism. In particular RMS does no longer prevent resources, which have been marked as "ClusterExclusive", from coming Online on more than one host in the cluster. It is recommended to double check the state of all affected resources before continuing. IMPORTANT: This command may kill nodes on which RMS is not running in order to reduce the risk of data corruption! Ensure that RMS is running on all other nodes. Or shut down OS of the node on which RMS is not running. Do you wish to proceed ? (default: no) [yes, no]:yes
/opt/SMAW/SMAWRrms/bin/hvenv.local ファイルから以下の行を削除します。
export HV_RCSTART=0
LEFTCLUSTERとなった場合は以下の手順でLEFTCLUSTERを解消してください。
“PRIMECLUSTER CF導入運用手引書”の“6.2.3 クラスタパーティションが発生した場合”を参照し、手動でLEFTCLUSTERを解消してください。
PRIMECLUSTERのCFのタイムアウト値を上記の11の手順で戻してください。
PRIMECLUSTERのシャットダウン機構を上記の13の手順で起動してください。
PRIMECLUSTERのRMSは上記の15の手順で起動してください。
運用・待機構成のクラスタアプリケーションの場合、“hvswitch -f”コマンドを実行してクラスタアプリケーションを強制起動してください。詳細は“PRIMECLUSTER活用ガイド<コマンドリファレンス編>”のhvswitchコマンドの-fオプションの説明を参照してください。
# hvswitch -f <userApplication>
The use of the -f (force) flag could cause your data to be corrupted and could cause your node to be killed. Do not continue if the result of this forced command is not clear. The use of force flag of hvswitch overrides the RMS internal security mechanism. In particular RMS does no longer prevent resources, which have been marked as "ClusterExclusive", from coming Online on more than one host in the cluster. It is recommended to double check the state of all affected resources before continuing. IMPORTANT: This command may kill nodes on which RMS is not running in order to reduce the risk of data corruption! Ensure that RMS is running on all other nodes. Or shut down OS of the node on which RMS is not running. Do you wish to proceed ? (default: no) [yes, no]:yes
/opt/SMAW/SMAWRrms/bin/hvenv.local ファイルから以下の行を削除します。
export HV_RCSTART=0