ここでは、PRIMERGY/PRIMEQUEST/仮想マシン環境のシャットダウン機構の設定手順について説明します。
シャットダウン機構の設定手順は、機種/構成により異なります。ハードウェアの機種/構成を確認して適切なシャットダウンエージェントを設定してください。
以下に機種/構成により必要なシャットダウンエージェントを示します。
サーバ機種 | SA_lkcd | SA_ipmi | SA_blade |
---|---|---|---|
BX920 シリーズ | ○ | △(*1)(*2) | ○ |
RX200/300/500/600/2520/2540/4770 シリーズ | ○ | ○ | × |
TX200/300/2540 シリーズ | ○ | ○ | × |
(*1)BX920 シリーズで ServerView Resource Orchestrator Virtual Edition と組み合わせて利用する場合、SA_ipmiを設定してください。
(*2)全ブレードにおいて、BMCまたはiRMCのユーザ名とパスワードの組み合わせは同一にしてください。
サーバ機種 | MMB | ||
---|---|---|---|
Panic | Reset | ||
PRIMEQUEST | 1000/2000 シリーズ | SA_mmbp | SA_mmbr |
サーバ機種 | クラスタ構成 | ||||
---|---|---|---|---|---|
仮想マシン機能(Xen環境) | |||||
筐体内ゲスト間 | 他筐体ゲスト間 | ||||
vmSP | |||||
Panic | Reset | Panic | Reset | ||
PRIMEQUEST | 1000 シリーズ | SA_vmSPgp | SA_vmSPgr | SA_vmSPgp | SA_vmSPgr |
サーバ機種 | クラスタ構成 | ||||
---|---|---|---|---|---|
仮想マシン機能(KVM環境) | |||||
筐体内ゲスト間 | 他筐体ゲスト間 | ||||
libvirt | |||||
Panic | Reset | Panic | Reset | ||
PRIMERGY | SA_libvirtgp | SA_libvirtgr | SA_libvirtgp | SA_libvirtgr | |
PRIMEQUEST | 1000/2000 シリーズ | SA_libvirtgp | SA_libvirtgr | SA_libvirtgp | SA_libvirtgr |
なお、管理OS異常切替機能を使用する場合には、以下のシャットダウンエージェントを設定します。ゲストOS上に設定するシャットダウンエージェントのSA_vmSPgp、SA_vmSPgr、SA_libvirtgp、SA_libvirtgrについては、仮想マシン機能で使用していたものと同様です。SA_vmSPgp、SA_vmSPgr、SA_libvirtgp、SA_libvirtgrの詳細は、“5.1.2.5.1 vmSP(VM用クラスタ連携ツール)”、“5.1.2.5.2 libvirt”を参照してください。SA_vmchkhostについては、“5.1.2.5.3 vmchkhost”の設定手順に従い設定を行ってください。
サーバ機種 | クラスタ構成 | |||||
---|---|---|---|---|---|---|
仮想マシン機能(Xen環境) | ||||||
他筐体ゲスト間(管理OS異常切替機能使用) | ||||||
MMB | vmSP | vmchkhost | ||||
Panic | Reset | Panic | Reset | 状態確認 | ||
PRIMEQUEST 1000 シリーズ | 管理OS | SA_mmbp | SA_mmbr | - | - | - |
ゲストOS | - | - | SA_vmSPgp | SA_vmSPgr | SA_vmchkhost |
サーバ機種 | クラスタ構成 | ||||
---|---|---|---|---|---|
仮想マシン機能(KVM環境) | |||||
他筐体ゲスト間(管理OS異常切替機能使用) | |||||
サーバ機種に依存 | libvirt | vmchkhost | |||
Panic | Reset | 状態確認 | |||
PRIMERGY | 管理OS | 表5.2参照 | - | - | - |
ゲストOS | - | SA_libvirtgp | SA_libvirtgr | SA_vmchkhost | |
PRIMEQUEST 1000/2000 シリーズ | 管理OS | 表5.3参照 | - | - | - |
ゲストOS | - | SA_libvirtgp | SA_libvirtgr | SA_vmchkhost |
注意
シャットダウン機構に使用する管理LANをGLSで二重化する場合は、NIC切替方式の論理IPアドレス引継ぎ機能を使用し、シャットダウン機構の管理LANには物理IPアドレスを設定してください。
参照
シャットダウン機構についての詳細は、以下のマニュアルを参照してください。
“PRIMECLUSTER コンセプトガイド”の“3.3.1.7 PRIMECLUSTER SF”
“PRIMECLUSTER Cluster Foundation 導入運用手引書”の“8 シャットダウン機構(SF)”
使用するシャットダウンエージェントについて、情報を確認します。
注意
シャットダウンエージェントの情報確認は、クラスタの初期設定前に実施してください。
■MMBの確認
MMBを使用している場合は、以下の設定を確認してください。
RMCPでMMBを制御するためのユーザの[Privilege]が「Admin」になっているか。
RMCPでMMBを制御するためのユーザの[Status]が「Enabled」になっているか。
RMCPでMMBを制御するためのユーザの設定を確認するには、MMB Web-UIにログインし、“Network Configuration”メニューの“Remote Server Management”画面から確認します。
上記のとおりに設定されていない場合は、上記のようにMMBを設定してください。
また、MMBに関する以下の情報をメモしてください。
RMCPでMMBを制御するためのユーザ名 (*1)
RMCPでMMBを制御するためのユーザのパスワード
*1) Adminの権限を付加されたユーザでなければなりません。
注意
MMBには以下の2種類のユーザが存在します。
MMB全体を制御するためのユーザ
RMCPでMMBを制御するためのユーザ
ここで確認するユーザはRMCPでMMBを制御するためのユーザです。誤らないようにしてください。
参照
MMBの設定方法、確認方法については、以下のマニュアルを参照してください。
PRIMEQUEST 1000 シリーズの場合
PRIMEQUEST 1000 シリーズ 運用管理ツールリファレンス
PRIMEQUEST 2000 シリーズの場合
PRIMEQUEST 2000 シリーズ 運用管理ツールリファレンス
■仮想マシンの確認(Xen環境の場合)
Xen環境でvmSP(VM用クラスタ連携ツール)をシャットダウン機構に設定する場合、ゲストOSを強制停止するために、SSH で管理OSにログインします。そのため、以下の情報を設定する必要があります。
管理OSのIPアドレス
管理OSにログインするためのユーザ名(FJSVvmSP)
管理OSにログインするためのユーザのパスワード
管理OSにログインするためのユーザ名とパスワードについては、以下で設定した情報をメモしてください。
1つの管理OS上のゲストOS間でクラスタシステムを構築している場合、“3.2.1.2 管理OSの設定(ゲストOSのOSインストール後)”
管理OS異常切替機能を使用せず、複数の管理OS上のゲストOS間でクラスタシステムを構築している場合、“3.2.2.2 管理OSの設定(ゲストOSのOSインストール後)”
管理OS異常切替機能を使用して、複数の管理OS上のゲストOS間でクラスタシステムを構築している場合、“3.2.3.1.4 管理OSの設定(ゲストOSのOSインストール後)”
■仮想マシンの確認(KVM環境の場合)
KVM環境でシャットダウン機構を設定する場合、ゲストOSを強制停止するために、SSH でハイパーバイザーにログインします。そのため、以下の情報を設定する必要があります。
ハイパーバイザーのIPアドレス
ハイパーバイザーにログインするためのユーザ (*2)
ハイパーバイザーにログインするためのユーザのパスワード
*2) rootユーザとしてコマンドを実行できるように、sudoコマンドの設定が行われたユーザでなければなりません。
ハイパーバイザーにログインするためのユーザ名とパスワードについては、以下で設定した情報をメモしてください。
1つの管理OS上のゲストOS間でクラスタシステムを構築している場合、“3.2.1.2 管理OSの設定(ゲストOSのOSインストール後)”
管理OS異常切替機能を使用せず、複数の管理OS上のゲストOS間でクラスタシステムを構築している場合、“3.2.2.2 管理OSの設定(ゲストOSのOSインストール後)”
管理OS異常切替機能を使用して、複数の管理OS上のゲストOS間でクラスタシステムを構築している場合、“3.2.3.1.4 管理OSの設定(ゲストOSのOSインストール後)”
クラスタインタコネクトの障害によりクラスタパーティションが発生した場合、まだ全ノードがユーザ資産にアクセスできる状態にあります。クラスタパーティションについては、“PRIMECLUSTER コンセプトガイド”の“2.2.2.1 データ整合性の保証”を参照してください。
ユーザ資産であるデータの整合性を保証するために、生存させるノード群と強制停止させるノード群を決定する必要があります。
PRIMECLUSTERでは、それぞれのノード群に対する重み付けを「生存優先度」と呼んでいます。
ノードの重みが大きいほど生存優先度は高くなり、小さくなるにつれて生存優先度は低くなります。ノード群の生存優先度が同じ場合は、ノード名がアルファベット順で最も早いノードを含むノード群が生存します。
生存優先度は、以下の計算で求められます。
生存優先度=SFのノードの重み(weight)+userApplicationの ShutdownPriority
注意
SFは、生存させるノード群と強制停止させるノード群を決定するために、管理LANを使用してノード間で生存優先度を交換します。管理LANによる通信が行えない等、各ノードの生存優先度を受け取れない場合、SFは各ノードの生存優先度をSFのノードの重み(weight)とします。
ノードの重み。デフォルト値=1。シャットダウン機能の設定の際に指定します。
設定はuserApplication作成時の属性設定で行ってください。設定値の変更方法については、“8.5 userApplicationの運用属性の変更”を参照してください。
参照
userApplicationのShutdownPriority属性については、“PRIMECLUSTER RMS 導入運用手引書”の“12.1 ユーザ設定属性”を参照してください。
以下に、代表的なケースをもとに、生存優先度の設計指針を示します。
すべてのノードのweightを1(デフォルト)に設定
すべてのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
生存させるノードのweightをその他ノードのweightの合計の2倍以上の値に設定
すべてのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
以下は、node1を生存させる場合の例です。
すべてのノードのweightを1(デフォルト)に設定
動作を続けさせるユーザアプリケーションのShutdownPriority属性をその他のユーザアプリケーションのShutdownPriority属性とすべてのノードのweightの合計の2倍以上の値に設定
以下は、app1が動作しているノードを生存させる場合の例です。
生存させるノードのweightを自分より優先度が低いノードのweightの合計の2倍以上の値に設定
すべてのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
以下は、node1、node2、node3、node4の順番でノードを生存させる場合の例です。
各クラスタシステムにおいて、生存優先度の低い順に、ノードのweightを2のべき乗(1,2,4,8,16,...)の値に設定
ゲストOSに設定するweightは、対応する管理OSと順序関係が同じになるようにする
例えば、管理OS間でhost1の生存優先度をhost2より高くするとき、ゲストOS間でnode1(host1に対応)の生存優先度をnode2~4(host2に対応)より高く設定
すべてのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
以下は、node1、node2、node3、node4の順番でノードを生存させる場合の例です。
PRIMERGYでシャットダウンエージェントを設定する手順について説明します。仮想マシン環境で使用する場合は、“5.1.2.5 仮想マシン環境でのシャットダウンエージェントの設定”を参照してください。
注意
シャットダウンエージェント設定後は、正しいノードが強制停止できることを確認するため、クラスタノード強制停止テストを実施してください。クラスタノード強制停止テストの詳細については、“1.4 テスト”を参照してください。
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxx,timeout=timeout CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxx,timeout=timeout
CFNameX : クラスタホストのCFノード名を指定します。 weight : SFのノードの重みを指定します。 myadmIP : 自ノードの管理LANのIPアドレスを指定します。 指定可能なアドレス形式は、IPv4アドレスおよびIPv6アドレスです。 IPv6のリンクローカルアドレスは使用できません。 IPv6アドレスを指定する場合は、角括弧[ ]で囲んでください。 (例 [1080:2090:30a0:40b0:50c0:60d0:70e0:80f0]) SA_xxx : シャットダウンエージェントの名前を指定します。 - IPMIシャットダウンエージェントの場合 SA_ipmiを指定します。 - Bladeシャットダウンエージェントの場合 SA_bladeを指定します。 timeout : シャットダウンエージェントのタイムアウト時間(秒)を指定します。 - IPMIシャットダウンエージェントの場合 25秒を指定します。 - Bladeシャットダウンエージェントの場合 20秒を指定します。 |
例)IPMIシャットダウンエージェントの場合
node1,weight=1,admIP=10.20.30.100:agent=SA_ipmi,timeout=25 node2,weight=1,admIP=10.20.30.101:agent=SA_ipmi,timeout=25
例)Bladeシャットダウンエージェントの場合
node1,weight=1,admIP=10.20.30.100:agent=SA_blade,timeout=20 node2,weight=1,admIP=10.20.30.101:agent=SA_blade,timeout=20
注意
IPMIシャットダウンエージェントの場合、timeoutには“25”を指定します。
PRIMERGY でSTP(スパニングツリープロトコル)を使用する場合には、STPがツリーを作成する時間と余裕を考慮し、SFのタイムアウト値を、現在設定されている値+50(秒)にする必要があります。この設定により、フェイルオーバに要する時間も遅くなります。
参考
/etc/opt/SMAW/SMAWsf/rcsd.cfgファイルを作成する場合、/etc/opt/SMAW/SMAWsf/rcsd.cfg.templateファイルを雛型として使用することができます。
BMC(Baseboard Management Controller)、またはiRMC(integrated Remote Management Controller)が搭載されているサーバの場合、IPMIシャットダウンエージェントを設定してください。
IPMIシャットダウンエージェントの設定は、kdumpシャットダウンエージェントの設定前に行ってください。
IPMIサービスの起動
全ノードで以下のコマンドを実行し、IPMIサービスの起動状態を確認します。
# /sbin/service ipmi status
IPMIサービスが起動していないすべてのノード上で、以下のコマンドを実行し、IPMIサービスを起動します。
# /sbin/service ipmi start
Starting ipmi drivers: [ OK ]
IPMIサービスのランレベルの設定
起動時にIPMIサービスを読み込むように、全ノードで以下のコマンドを実行します。
# /sbin/chkconfig --level 2345 ipmi on
パスワードの暗号化
sfcipherコマンドを実行し、シャットダウン機構用のユーザのパスワードを暗号化します。
例) IPMI(BMC, iRMC)設定時に定義したパスワードが"bmcpwd$"の場合
# sfcipher -c
Enter User's Password: ←bmcpwd$ を入力
Re-enter User's Password: ←bmcpwd$ を入力
/t1hXYb/Wno=
注) 4.3A30以降では、パスワードとして定義した記号の前に'\'の記載は不要です。
sfcipherコマンドの使用法については、sfcipherのマニュアルページを参照してください。
注意
IPMI(BMC, iRMC)設定時に定義したパスワードには、7ビット ASCIIコードの文字が使用可能です。
その中で以下の記号は問題が発生する可能性があるため、使用しないようにしてください。
> < " / ¥ = ! ? ; , &
シャットダウンエージェントの設定
全ノードで/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgを以下のような内容で作成します。
IPv4アドレスの場合
CFName1 ip-address:user:passwd {cycle | leave-off} CFName2 ip-address:user:passwd {cycle | leave-off}
IPv6アドレスの場合
CFName1 [ip-address]:user:passwd {cycle | leave-off} CFName2 [ip-address]:user:passwd {cycle | leave-off}
CFNameX : クラスタホストのCFノード名を指定します。 ip-address : IPMI(BMC, iRMC)のIPアドレスを指定します。 指定可能なアドレス形式は、IPv4アドレスおよびIPv6アドレスです。 IPv6のリンクローカルアドレスは使用できません。 IPv6アドレスを指定する場合は角括弧[ ]で囲んでください。 (例 [1080:2090:30a0:40b0:50c0:60d0:70e0:80f0]) user : IPMI(BMC, iRMC)設定時に定義したユーザ名を指定します。 passwd : IPMI(BMC, iRMC)設定時に定義したパスワードです。 1.で暗号化したパスワードを指定します。 cycle : ノード強制停止後、リブートします。 leave-off : ノード強制停止後、電源切断します。 |
例1)
node1のiRMCのIPアドレスが10.20.30.50、node2のiRMCのIPアドレスが10.20.30.51の場合
node1 10.20.30.50:root:D0860AB04E1B8FA3 cycle
node2 10.20.30.51:root:D0860AB04E1B8FA3 cycle
例2)
node1のiRMCのIPアドレスが1080:2090:30a0:40b0:50c0:60d0:70e0:80f0、node2のiRMCのIPアドレスが1080:2090:30a0:40b0:50c0:60d0:70e0:80f1の場合
node1 [1080:2090:30a0:40b0:50c0:60d0:70e0:80f0]:root:D0860AB04E1B8FA3 cycle
node2 [1080:2090:30a0:40b0:50c0:60d0:70e0:80f1]:root:D0860AB04E1B8FA3 cycle
参考
/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgファイルを作成する場合、/etc/opt/SMAW/SMAWsf/SA_ipmi.cfg.templateファイルを雛形として使用することができます。
注意
/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgファイルの設定内容が正しいか確認してください。設定内容に誤りがあった場合、シャットダウン機構が正常に動作できなくなります。
/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgファイルのクラスタホストのCFノード名(CFNameX)に対応した、IPMI(BMC, iRMC)のIPアドレス(ip-address)が設定されているか確認してください。設定に誤りがあった場合、誤ったノードが強制停止されることがあります。
/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgファイルのパーミッションを、以下のコマンドを実行して600に変更してください。
# chmod 600 /etc/opt/SMAW/SMAWsf/SA_ipmi.cfg
ブレードサーバの場合、Bladeシャットダウンエージェントを設定してください。
Bladeシャットダウンエージェントの設定は、kdumpシャットダウンエージェントの設定前に行ってください。
全ノードで/etc/opt/SMAW/SMAWsf/SA_blade.cfgを以下のような内容で作成します。
(1) 同一シャーシ内のクラスタ構成の場合
management-blade-ip IPaddress community-string SNMPcommunity
CFName1 slot-no {cycle | leave-off}
CFName2 slot-no {cycle | leave-off}
(2) 複数シャーシのクラスタ構成の場合
community-string SNMPcommunity management-blade-ip IPaddress CFName1 slot-no {cycle | leave-off}
management-blade-ip IPaddress
CFName2 slot-no {cycle | leave-off}
IPaddress : マネージメントブレードのIPアドレスを指定します。 指定可能なアドレス形式は、IPv4アドレスおよびIPv6アドレスです。 IPv6のリンクローカルアドレスは使用できません。 IPv6アドレスを指定する場合は、角括弧[ ]で囲んでください。 (例 [1080:2090:30a0:40b0:50c0:60d0:70e0:80f0]) SNMPcommunity : SNMP コミュニティ名を指定します。 CFNameX : クラスタホストのCFノード名を指定します。 slot-no : サーバブレードのスロット番号を指定します。 cycle : ノード強制停止後、リブートします。 leave-off : ノード強制停止後、電源切断します。 |
例1)
node1とnode2のマネージメントブレードのIPアドレスが10.20.30.50、node1のスロット番号が1、node2のスロット番号が2の場合
management-blade-ip 10.20.30.50 community-string public
node1 1 cycle
node2 2 cycle
例2)
node1のマネージメントブレードのIPアドレスが10.20.30.50でスロット番号が1、node2のマネージメントブレードのIPアドレスが10.20.30.51でスロット番号が2の場合
community-string public
management-blade-ip 10.20.30.50
node1 1 cycle
management-blade-ip 10.20.30.51
node2 2 cycle
参考
/etc/opt/SMAW/SMAWsf/SA_blade.cfgを作成する場合、/etc/opt/SMAW/SMAWsf/SA_blade.cfg.templateファイルを雛型として使用することができます。
注意
/etc/opt/SMAW/SMAWsf/SA_blade.cfgファイルの設定内容が正しいか確認してください。設定内容に誤りがあった場合、シャットダウン機構が正常に動作できなくなります。
/etc/opt/SMAW/SMAWsf/SA_blade.cfgファイルのクラスタホストのCFノード名(CFNameX)に対応した、マネージメントブレードのIPアドレス(IPaddress)とサーバブレードのスロット番号(slot-no)が設定されているか確認してください。設定に誤りがあった場合、誤ったノードが強制停止されることがあります。
/etc/opt/SMAW/SMAWsf/SA_blade.cfgファイルのパーミッションを、以下のコマンドを実行して600に変更してください。
# chmod 600 /etc/opt/SMAW/SMAWsf/SA_blade.cfg
注意
rcsd.cfg, SA_ipmi.cfg, SA_blade.cfgファイルの内容は全ノードで同一にしてください。同一でない場合、誤動作することがあります。
kdumpによるクラッシュダンプ採取のために、kdumpシャットダウンエージェントを設定してください。
注意
PRIMERGY(仮想マシン環境を除く)では、kdumpシャットダウンエージェントを設定する必要があります。
PRIMERGYでkdumpシャットダウンエージェントを使用する場合、RHEL5ではkdumpの設定ファイル/etc/kdump.confでextra_modulesオプションは使用できません。
kdump用定義ファイルの初期化
クラスタシステムを構成するいずれかのノードで以下のコマンドを実行します。
# /etc/opt/FJSVcllkcd/bin/panicinfo_setup
注意
本コマンドは、CFおよびCFのサービス(CFSH, CFCP)が動作していることを前提としています。設定の詳細については、“5.1.1 CF、CIPの設定”の注意事項を参照してください。
クラッシュダンプ採取の設定
設定方法はノードの機種により異なります。
PRIMERGY RX200/300/500/600/2520/2540/4770 シリーズ、TX200/300/2540 シリーズ、BX920 シリーズ(ServerView Resource Orchestrator Virtual Edition と組み合わせて使用)の場合
全ノードで/etc/opt/FJSVcllkcd/etc/SA_lkcd.toutを以下に変更します。
変更前
PANICINFO_TIMEOUT 5 RSB_PANIC 0
変更後
PANICINFO_TIMEOUT 10 RSB_PANIC 3
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgのSA_lkcdのtimeout値を以下に変更します。
変更前
agent=SA_lkcd,timeout=20
変更後
agent=SA_lkcd,timeout=25
ブレードサーバの場合 (BX920 シリーズ)
全ノードで/etc/opt/FJSVcllkcd/etc/SA_lkcd.toutのRSB_PANICの値を以下に変更します。
変更前
RSB_PANIC 0
変更後
RSB_PANIC 2
全ノードでシャットダウン機構を起動または再起動させます。
シャットダウンデーモン(rcsd)が未起動の場合
sdtool -bで起動します。
# sdtool -b
シャットダウンデーモン(rcsd)が動作中の場合
sdtool -eでシャットダウンデーモン(rcsd)を停止した後、sdtool -bで起動します。
# sdtool -e # sdtool -b
シャットダウンデーモン(rcsd)が動作中かどうかはsdtool -sで確認できます。
# sdtool -s
全ノードでsdtool -sを実行することで、シャットダウン機構の構成状態を確認することができます。
注意
sdtool -sコマンドの表示結果で、シャットダウン機構が正常に動作していることを確認してください。
シャットダウン機構の設定が完了しているのに、初期状態がInitFailedと表示されたり、テスト状態にUnknownやTestFailedと表示されたりする場合、エージェントやハードウェアの構成設定に誤りがある可能性があります。/var/log/messages ファイルにエラーメッセージが出力されていないかを確認してください。その後、出力されたメッセージの内容に応じた対処を実施してください。
PRIMEQUESTでシャットダウンエージェントを設定する手順について説明します。仮想マシン環境で使用する場合は、“5.1.2.5 仮想マシン環境でのシャットダウンエージェントの設定”を参照してください。
注意
シャットダウンエージェント設定後は、正しいノードが強制停止できることを確認するため、クラスタノード強制停止テストを実施してください。クラスタノード強制停止テストの詳細については、“1.4 テスト”を参照してください。
ここでは、MMBをシャットダウン機構に設定する手順について説明します。
シャットダウン機構を設定する前にシャットダウンエージェントの情報確認を行ってください。
MMBシャットダウン機構の設定
注意
ここで説明するMMB情報の登録は、“5.1.1 CF、CIPの設定”の後、また、後述の“■シャットダウンデーモンの設定”の前に実施してください。
全ノードでclmmbsetup -a コマンドを実行し、MMB情報を登録します。
clmmbsetupコマンドの使用法については、clmmbsetupのマニュアルページを参照してください。
# /etc/opt/FJSVcluster/bin/clmmbsetup -a mmb-user Enter User's Password: Re-enter User's Password:
mmb-userとUser's Passwordには、“5.1.2.1 シャットダウンエージェントの情報確認”で確認した以下の内容を入力します。
RMCPでMMBを制御するためのユーザ名
RMCPでMMBを制御するためのユーザのパスワード
注意
ユーザのパスワードに使用可能な文字は英数字のみです。記号は使用できません。
全ノードでclmmbsetup -l コマンドを実行し、登録されたMMB情報を確認します。
手順1.で登録したMMB情報が全ノードで出力されない場合、再度手順1.からやり直してください。
# /etc/opt/FJSVcluster/bin/clmmbsetup -l
cluster-host-name user-name
-----------------------------------
node1 mmb-user
node2 mmb-user
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxx,timeout=timeout CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxx,timeout=timeout
CFNameX : クラスタホストのCFノード名を指定します。 weight : SFのノードの重みを指定します。 myadmIP : 自ノードの管理LANのIPアドレスを指定します。 指定可能なアドレス形式は、IPv4アドレスおよびIPv6アドレスです。 IPv6のリンクローカルアドレスは使用できません。 IPv6アドレスを指定する場合は、角括弧[ ]で囲んでください。 (例 [1080:2090:30a0:40b0:50c0:60d0:70e0:80f0]) SA_xxx : シャットダウンエージェントの名前を指定します。 - MMB経由でノードをパニックさせる場合 SA_mmbpを指定します。 - MMB経由でノードをリセットさせる場合 SA_mmbrを指定します。 timeout : シャットダウンエージェントのタイムアウト時間(秒)を指定します。 SA_mmbpとSA_mmbrには、20秒を指定します。 |
例)2ノード構成の設定例を以下に記載します。
# cat /etc/opt/SMAW/SMAWsf/rcsd.cfg
node1,weight=2,admIP=fuji2:agent=SA_mmbp,timeout=20:agent=SA_mmbr,timeout=20
node2,weight=2,admIP=fuji3:agent=SA_mmbp,timeout=20:agent=SA_mmbr,timeout=20
注意
rcsd.cfgファイルで設定するシャットダウンエージェントは、SA_mmbp、SA_mmbrの順番で両方のシャットダウンエージェントを設定してください。
rcsd.cfgファイルの内容は全ノードで同一にしてください。同一でない場合、誤動作することがあります。
参考
/etc/opt/SMAW/SMAWsf/rcsd.cfgファイルを作成する場合、/etc/opt/SMAW/SMAWsf/rcsd.cfg.mmb.templateファイルを雛型として使用することができます。
MMB非同期監視デーモンの起動
全ノードでMMB非同期監視デーモンが起動済か確認してください。
# /etc/opt/FJSVcluster/bin/clmmbmonctl
“The devmmbd daemon exists.”が表示された場合、MMB非同期監視デーモンは起動済です。
“The devmmbd daemon does not exist.”が表示された場合、MMB非同期監視デーモンは起動していません。以下を実行し、MMB非同期監視デーモンを起動してください。
# /etc/opt/FJSVcluster/bin/clmmbmonctl start
シャットダウン機構の起動
全ノードでシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ノードでシャットダウン機構を再起動してください。
# sdtool -e # sdtool -b
シャットダウン機構が起動していない場合、以下を実行して全ノードでシャットダウン機構を起動してください。
# sdtool -b
シャットダウン機構の状態確認
全ノードでシャットダウン機構の状態を確認してください。
# sdtool -s
参考
初期状態がInitFailed と表示された場合は、そのシャットダウンエージェントの初期化で問題が発生したことを示しています。
テスト状態にTestFailed と表示された場合は、クラスタホスト欄に表示されたノードを停止できるかどうかをエージェントがテストしている間に問題が発生したことを示しています。 このような場合には、そのエージェントが使用しているソフトウェア、ハードウェア、ネットワーク資源に何らかの問題が生じていることが考えられます。
停止状態または初期状態にUnknown と表示された場合は、SF がノードの停止、経路のテスト、SA の初期化をまだ行っていないことを表しています。 テスト状態および初期状態には、実際の状態が確認されるまで一時的にUnknown が表示されます。
TestFailed またはInitFailed が表示された場合は、SA ログファイルまたは、/var/log/messages を確認してください。ログファイルには、SA のテストまたは初期化に失敗した理由が記録されています。失敗した問題が解決されSF が再起動されると、状態の表示がInitWorked またはTestWorked に変わります。
注意
シャットダウン機構起動後に、"sdtool -s"を実行すると、テスト状態にTestFailedと表示された場合で、かつ、/var/log/messagesに7210番のメッセージが出力された場合は、以下の原因が考えられます。
各項目を確認してください。
7210 An error was detected in MMB. (node:nodename mmb_ipaddress1:mmb_ipaddress1 mmb_ipaddress2:mmb_ipaddress2 node_ipaddress1:node_ipaddress1 node_ipaddress2:node_ipaddress2 status:status detail:detail)
PSA/SVmcoのインストールや設定がされていない
SVmcoを手動でインストールした後にノードを再起動していない
PSA/SVmcoの設定に誤りがある
例)管理LANのIPアドレスに誤ったIPアドレス(MMBのIPアドレスなど)を指定している
PSA/SVmcoの動作に必要なファイアウォールの設定が行われていない
MMBの設定に誤りがある
例1)誤ったIPアドレスが設定されている
例2)MMBの仮想IPアドレスと物理IPアドレスの両方が設定されていない
OS起動直後に“sdtool -s”を実行すると、自ノードのテスト状態にTestFailedと表示される場合がありますが、これはsnmptrapdデーモンが起動中のため表示されるもので、正しい動作です。シャットダウン機構が起動した10分後に“sdtool -s”を実行すると、テスト状態にTestWorkedが表示されます。
以下の例では、自ノード(node1)のテスト状態にTestFailedが表示されています。
# sdtool -s
Cluster Host Agent SA State Shut State Test State Init State
------------ ----- -------- ---------- ---------- ----------
node1 SA_mmbp.so Idle Unknown TestFailed InitWorked
node1 SA_mmbr.so Idle Unknown TestFailed InitWorked
node2 SA_mmbp.so Idle Unknown TestWorked InitWorked
node2 SA_mmbr.so Idle Unknown TestWorked InitWorked
また、同じ理由により、OS起動直後に以下のメッセージが出力される場合があります。
3084: Monitoring another node has been stopped. SA SA_mmbp.so to test host nodename failed SA SA_mmbr.so to test host nodename failed
これも、snmptrapdデーモンが起動中のため出力されるもので、正しい動作です。シャットダウン機構が起動した10分後に以下のメッセージが出力されます。
3083: Monitoring another node has been started.
MMB非同期監視デーモンの初回起動時に、"sdtool -s"を実行するとTestFailedと表示される場合がありますが、これはノード間で設定を同期中であるために表示されるもので、正しい動作です。シャットダウン機構が起動した10分後に"sdtool -s"を実行すると、テスト状態にTestWorkedが表示されます。
SA_mmbr シャットダウンエージェントによるノードの強制停止を行うと、以下のメッセージが出力される場合がありますが、これはノードの強制停止に時間がかかっているもので、正しい動作です。
Fork SA_mmbp.so(PID pid) to shutdown host nodename : SA SA_mmbp.so to shutdown host nodename failed : Fork SA_mmbr.so(PID pid) to shutdown host nodename : SA SA_mmbr.so to shutdown host nodename failed : MA SA_mmbp.so reported host nodename leftcluster, state MA_paniced_fsnotflushed : MA SA_mmbr.so reported host nodename leftcluster, state MA_paniced_fsnotflushed : Fork SA_mmbp.so(PID pid) to shutdown host nodename : SA SA_mmbp.so to shutdown host nodename succeeded
上記メッセージが出力された後に“sdtool -s”を実行すると、SA_mmbp.so の停止状態に KillWorked が表示され、SA_mmbr.so の停止状態に KillFailed が表示されます。
以下は、node1 から node2 の強制停止を行い、上記メッセージが出力された後に“sdtool -s”を実行した場合の表示例です。
# sdtool -s
Cluster Host Agent SA State Shut State Test State Init State
------------ ----- -------- ---------- ---------- ----------
node1 SA_mmbp.so Idle Unknown TestWorked InitWorked
node1 SA_mmbr.so Idle Unknown TestWorked InitWorked
node2 SA_mmbp.so Idle KillWorked TestWorked InitWorked
node2 SA_mmbr.so Idle KillFailed TestWorked InitWorked
“sdtool -s”で表示された KillFailed を復旧する場合は、以下の手順で復旧してください。
# sdtool -e # sdtool -b # sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- node1 SA_mmbp.so Idle Unknown TestWorked InitWorked node1 SA_mmbr.so Idle Unknown TestWorked InitWorked node2 SA_mmbp.so Idle Unknown TestWorked InitWorked node2 SA_mmbr.so Idle Unknown TestWorked InitWorked
I/O完了待ち時間の設定
パニックなどのノードダウンによる切替え時、I/Oが完了するまでの待ち時間 (WaitForIOComp)の設定は、以下の手順で実施してください。
共用ディスクの事前確認
MMB非同期監視のパニックなどのノードダウンによる切替え時のI/O完了待ち時間は標準で0秒を設定していますが、I/O完了待ち時間が必要な共用ディスクを使用する場合、この値を適切な値に設定する必要があります。
参考
ETERNUS ディスクアレイの場合、I/O完了待ち時間が不要ですので、本設定を行う必要はありません。
注意
I/O完了待ち時間を設定した場合、パニックなどのノードダウン時の切替え時間がその時間分増加します。
I/O完了待ち時間の設定
以下のコマンドを実行し、パニックなどのノードダウンによる切替え時のI/Oが完了するまでの待ち時間(WaitForIOComp)を設定してください。cldevparamコマンドについて、詳しくはcldevparamのマニュアルページを参照してください。
なお、クラスタシステムを構成する任意の1ノードで実行してください。
# /etc/opt/FJSVcluster/bin/cldevparam -p WaitForIOComp value
また、以下のコマンドを実行し、I/Oが完了するまでの待ち時間(WaitForIOComp)の設定を確認してください。
# /etc/opt/FJSVcluster/bin/cldevparam -p WaitForIOComp value
シャットダウン機構の起動
全ノードでシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ノードでシャットダウン機構を再起動してください。
# sdtool -r
シャットダウン機構が起動していない場合、以下を実行して全ノードでシャットダウン機構を起動してください。
# sdtool -b
シャットダウン機構の状態確認
全ノードでシャットダウン機構の状態を確認してください。
# sdtool -s
仮想マシン環境でシャットダウンエージェントを設定する手順について説明します。
注意
シャットダウンエージェント設定後は、正しいノードが強制停止できることを確認するため、クラスタノード強制停止テストを実施してください。クラスタノード強制停止テストの詳細については、“1.4 テスト”を参照してください。
ここでは、Xen環境でvmSP(VM用クラスタ連携ツール)をシャットダウン機構に設定する手順について説明します。
シャットダウン機構を設定する前に“5.1.2.1 シャットダウンエージェントの情報確認”を行ってください。
注意
下記の1.から6.までの操作はすべてのゲストOS(ノード)で実行してください。
パスワードの暗号化
sfcipher コマンドを実行し、クラスタノードとして設定したゲストOSが存在する、すべての管理OSのアカウントFJSVvmSPのパスワードを暗号化します。
sfcipher コマンドの使用法については、sfcipherのマニュアルページを参照してください。
# sfcipher -c
Enter User's Password:
Re-enter User's Password:
D0860AB04E1B8FA3
シャットダウンエージェントの設定
シャットダウンエージェントを設定してください。PANIC用シャットダウンエージェント(SA_vmSPgp)の場合は/etc/opt/SMAW/SMAWsf/SA_vmSPgp.cfg、RESET用シャットダウンエージェント(SA_vmSPgr)の場合は/etc/opt/SMAW/SMAWsf/SA_vmSPgr.cfgをそれぞれ以下のような内容で作成します。
CFNameX domainX ip-address user passwd CFNameX domainX ip-address user passwd
CFNameX : クラスタホストのCFノード名を指定します。 domainX : ゲストOSのドメイン名を指定します。 ip-address : 管理OSのIPアドレスを指定します。 指定可能なアドレス形式は、IPv4アドレスです。 user : 管理OSのアカウントFJSVvmSPを指定します。 passwd : 管理OSのアカウントFJSVvmSPのログインパスワードです。 1.のパスワードの暗号化で暗号化したものを指定します。
例)設定例を以下に示します。
node1のゲストOSのドメイン名がdomain1で、node1が動作する管理OSのIPアドレスが10.20.30.50、node2のゲストOSのドメイン名がdomain2で、node2が動作する管理OSのIPアドレスが10.20.30.51の場合
# cat /etc/opt/SMAW/SMAWsf/SA_vmSPgp.cfg
node1 domain1 10.20.30.50 FJSVvmSP D0860AB04E1B8FA3
node2 domain2 10.20.30.51 FJSVvmSP D0860AB04E1B8FA3
# cat /etc/opt/SMAW/SMAWsf/SA_vmSPgr.cfg
node1 domain1 10.20.30.50 FJSVvmSP D0860AB04E1B8FA3
node2 domain2 10.20.30.51 FJSVvmSP D0860AB04E1B8FA3
注意
/etc/opt/SMAW/SMAWsf/SA_vmSPgp.cfgファイルと/etc/opt/SMAW/SMAWsf/SA_vmSPgr.cfgファイルの設定内容が正しいか確認してください。設定内容に誤りがあった場合、シャットダウン機構が正常に動作できなくなります。
/etc/opt/SMAW/SMAWsf/SA_vmSPgp.cfgファイルと/etc/opt/SMAW/SMAWsf/SA_vmSPgr.cfgファイルのクラスタホストのCFノード名(CFNameX)に対応した、ゲストOSのドメイン名(domainX)と管理OSのIPアドレス(ip-address)が設定されているか確認してください。設定に誤りがあった場合、誤ったノードが強制停止されることがあります。
管理OSへのログイン
シャットダウン機構は、対象ノードへSSHでアクセスするため、SSH初回時のユーザ問い合わせ(RSA 鍵の生成)を済ませておく必要があります。
全ゲストOS(ノード)上でそれぞれ、2. で設定したすべての管理OS のIP アドレス (ip-address) に対して、2. で設定した管理OSのユーザ名 (user) でログインを実行してください。
# ssh -l FJSVvmSP XXX.XXX.XXX.XXX
The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established.
RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx.
Are you sure you want to continue connecting (yes/no)? yes ←yes と入力
シャットダウンデーモンの設定
/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxxx,timeout=timeout CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxxx,timeout=timeout
CFNameX :クラスタホストのCFノード名を指定します。 weight :SFのノードの重みを指定します。 myadmIP :自ゲストOS(ノード)の管理LANのIPアドレスを指定します。 SA_xxxx :シャットダウンエージェントの名前を指定します。 ここでは、“SA_vmSPgp”または“SA_vmSPgr”を指定します。 timeout :シャットダウンエージェントのタイムアウト時間(秒)を指定します。 SA_vmSPgpとSA_vmSPgrには、35秒を指定します。
例)設定例を以下に示します。
# cat /etc/opt/SMAW/SMAWsf/rcsd.cfg
node1,weight=2,admIP=fuji2:agent=SA_vmSPgp,timeout=35:agent=SA_vmSPgr,timeout=35
node2,weight=2,admIP=fuji3:agent=SA_vmSPgp,timeout=35:agent=SA_vmSPgr,timeout=35
注意
rcsd.cfgファイルで設定するシャットダウンエージェントは、SA_vmSPgp、SA_vmSPgrの順番で両方のシャットダウンエージェントを設定してください。
SA_vmSPgp.cfg、SA_vmSPgr.cfg、rcsd.cfgファイルの内容はすべてのゲストOS(ノード)で同一にしてください。同一でない場合誤動作します。
シャットダウン機構の起動
全ノードでシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ノードでシャットダウン機構を再起動してください。
# sdtool -e # sdtool -b
シャットダウン機構が起動していない場合、以下を実行して全ノードでシャットダウン機構を起動してください。
# sdtool -b
シャットダウン機構の状態確認
シャットダウン機構の状態を確認してください。
# sdtool -s
参考
sdtool -s コマンドの表示結果について
初期状態がInitFailed と表示された場合は、そのシャットダウンエージェントの初期化で問題が発生したことを示しています。
テスト状態にTestFailed と表示された場合は、クラスタホスト欄に表示されたノードを停止できるかどうかをエージェントがテストしている間に問題が発生したことを示しています。このような場合には、そのエージェントが使用しているソフトウェア、ハードウェア、ネットワーク資源、管理OSに何らかの問題が生じていることが考えられます。
SSHの最大同時接続数が"クラスタ構成ノード数"以下の場合、シャットダウン機構の状態が InitFailed または TestFailed で表示されることがあります。SSHの最大同時接続数が"クラスタ構成ノード数+1"以上となるように設定を変更してください。
停止状態または初期状態にUnknown と表示された場合は、SF がノードの停止、経路のテスト、SA の初期化をまだ行っていないことを表しています。テスト状態および初期状態には、実際の状態が確認されるまで一時的にUnknown が表示されます。
TestFailed またはInitFailed が表示された場合は、SA ログファイルまたは、/var/log/messages を確認してください。ログファイルには、SA のテストまたは初期化に失敗した理由が記録されています。失敗した問題が解決されSF が再起動されると、状態の表示がInitWorked またはTestWorked に変わります。
ここでは、KVM環境でlibvirtをシャットダウン機構に設定する手順について説明します。
シャットダウン機構を設定する前に“5.1.2.1 シャットダウンエージェントの情報確認”を行ってください。
注意
下記の1.から6.までの操作はすべてのゲストOS(ノード)で実行してください。
パスワードの暗号化
sfcipherコマンドを実行し、シャットダウン機構用のユーザのパスワードを暗号化します。
sfcipherコマンドの使用法については、sfcipherのマニュアルページを参照してください。
# sfcipher -c
Enter User's Password:
Re-enter User's Password:
D0860AB04E1B8FA3
シャットダウンエージェントの設定
シャットダウンエージェントを設定してください。PANIC用シャットダウンエージェント(SA_libvirtgp)の場合は/etc/opt/SMAW/SMAWsf/SA_libvirtgp.cfg 、RESET 用シャットダウンエージェント(SA_libvirtgr) の場合は/etc/opt/SMAW/SMAWsf/SA_libvirtgr.cfgをそれぞれ以下のような内容で作成します。
CFNameX domainX ip-address user passwd CFNameX domainX ip-address user passwd
CFNameX :クラスタホストのCFノード名を指定します。 domainX :ゲストOSのドメイン名を指定します。 ip-address :ハイパーバイザーのIPアドレスを指定します。 指定可能なアドレス形式は、IPv4アドレスおよびIPv6アドレスです。 IPv6のリンクローカルアドレスは使用できません。 user :ハイパーバイザーのアカウントです。シャットダウン機構用のユーザを指定します。 passwd :“user”で指定したアカウントのログインパスワードです。 1.のパスワードの暗号化で確認したものを指定します。
例)設定例を以下に示します。
node1のゲストOSのドメイン名がdomain1で、node1が動作するハイパーバイザーのIPアドレスが10.20.30.50、node2のゲストOSのドメイン名がdomain2で、node2が動作するハイパーバイザーのIPアドレスが10.20.30.51の場合
# cat /etc/opt/SMAW/SMAWsf/SA_libvirtgp.cfg
node1 domain1 10.20.30.50 user D0860AB04E1B8FA3
node2 domain2 10.20.30.51 user D0860AB04E1B8FA3
# cat /etc/opt/SMAW/SMAWsf/SA_libvirtgr.cfg
node1 domain1 10.20.30.50 user D0860AB04E1B8FA3
node2 domain2 10.20.30.51 user D0860AB04E1B8FA3
注意
/etc/opt/SMAW/SMAWsf/SA_libvirtgp.cfgファイルと/etc/opt/SMAW/SMAWsf/SA_libvirtgr.cfgファイルの設定内容が正しいか確認してください。設定内容に誤りがあった場合、シャットダウン機構が正常に動作できなくなります。
/etc/opt/SMAW/SMAWsf/SA_libvirtgp.cfgファイルと/etc/opt/SMAW/SMAWsf/SA_libvirtgr.cfgファイルのクラスタホストのCFノード名(CFNameX)に対応した、ゲストOSのドメイン名(domainX)とハイパーバイザーのIPアドレス(ip-address)が設定されているか確認してください。設定に誤りがあった場合、誤ったノードが強制停止されることがあります。
SA_libvirtgpによるノード(ゲストOS)強制停止後、ゲストOSが一時停止状態のままになることがあります(管理OSの/var/crash配下に空き容量がない場合など)。このような場合、ゲストOSをvirsh destroyコマンドで強制停止してください。
ハイパーバイザーへのログイン
シャットダウン機構は、対象ノードへSSHでアクセスするため、SSH初回時のユーザ問い合わせ(RSA 鍵の生成)を済ませておく必要があります。
全ゲストOS(ノード)上でそれぞれ、2. で設定したすべてのハイパーバイザーのIP アドレス (ip-address) に対して、シャットダウン機構用のユーザでログインを実行してください。
# ssh -l user XXX.XXX.XXX.XXX The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established. RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx. Are you sure you want to continue connecting (yes/no)? yes ←yes と入力
シャットダウンデーモンの設定
/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxxx,timeout=timeout CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxxx,timeout=timeout
CFNameX :クラスタホストのCFノード名を指定します。 weight :SFのノードの重みを指定します。 myadmIP :自ゲストOS(ノード)の管理LANのIPアドレスを指定します。 指定可能なアドレス形式は、IPv4アドレスおよびIPv6アドレスです。 IPv6のリンクローカルアドレスは使用できません。 IPv6アドレスを指定する場合は、角括弧[ ]で囲んでください。 (例 [1080:2090:30a0:40b0:50c0:60d0:70e0:80f0]) SA_xxxx :シャットダウンエージェントの名前を指定します。 ここでは、“SA_libvirtgp”または“SA_libvirtgr”を指定します。 timeout :シャットダウンエージェントのタイムアウト時間(秒)を指定します。 SA_libvirtgpとSA_libvirtgrには、35秒を指定します。
例)設定例を以下に示します。
# cat /etc/opt/SMAW/SMAWsf/rcsd.cfg
node1,weight=1,admIP=10.20.30.100:agent=SA_libvirtgp,timeout=35:agent=SA_libvirtgr,timeout=35
node2,weight=1,admIP=10.20.30.101:agent=SA_libvirtgp,timeout=35:agent=SA_libvirtgr,timeout=35
注意
rcsd.cfgファイルで設定するシャットダウンエージェントは、SA_libvirtgp、SA_libvirtgrの順番で両方のシャットダウンエージェントを設定してください。
SA_libvirtgp.cfg、SA_libvirtgr.cfg、rcsd.cfgファイルの内容はすべてのゲストOS(ノード)で同一にしてください。同一でない場合誤動作します。
シャットダウン機構の起動
全ノードでシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ノードでシャットダウン機構を再起動してください。
# sdtool -e # sdtool -b
シャットダウン機構が起動していない場合、以下を実行して全ノードでシャットダウン機構を起動してください。
# sdtool -b
シャットダウン機構の状態確認
シャットダウン機能の状態を確認してください。
# sdtool -s
参考
sdtool -s コマンドの表示結果について
初期状態がInitFailed と表示された場合は、そのシャットダウンエージェントの初期化で問題が発生したことを示しています。
テスト状態にTestFailed と表示された場合は、クラスタホスト欄に表示されたノードを停止できるかどうかをエージェントがテストしている間に問題が発生したことを示しています。このような場合には、そのエージェントが使用しているソフトウェア、ハードウェア、ネットワーク資源、管理OSに何らかの問題が生じていることが考えられます。
SSHの最大同時接続数が"クラスタ構成ノード数"以下の場合、シャットダウン機構の状態が InitFailed または TestFailed で表示されることがあります。SSHの最大同時接続数が"クラスタ構成ノード数+1"以上となるように設定を変更してください。
停止状態または初期状態にUnknown と表示された場合は、SF がノードの停止、経路のテスト、SA の初期化をまだ行っていないことを表しています。テスト状態および初期状態には、実際の状態が確認されるまで一時的にUnknown が表示されます。
TestFailed またはInitFailed が表示された場合は、SA ログファイル、/var/log/messagesまたは、/etc/sysconfig/libvirt-guestsを確認してください。ログファイルには、SA のテストまたは初期化に失敗した理由が記録されています。/etc/sysconfig/libvirt-guests については、以下の設定が行われているか確認してください。
1つの管理OS上のゲストOS間でクラスタシステムを構築している場合、“3.2.1.2 管理OSの設定(ゲストOSのOSインストール後)”
管理OS異常切替機能を使用せず、複数の管理OS上のゲストOS間でクラスタシステムを構築している場合、“3.2.2.2 管理OSの設定(ゲストOSのOSインストール後)”
管理OS異常切替機能を使用して、複数の管理OS上のゲストOS間でクラスタシステムを構築している場合、“3.2.3.1.4 管理OSの設定(ゲストOSのOSインストール後)”
失敗した問題が解決されSF が再起動されると、状態の表示がInitWorked またはTestWorked に変わります。
ここでは、仮想マシン環境でvmchkhost(管理OSクラスタ連携)をシャットダウン機構に設定する手順について説明します。
本設定は、vmSP(VM用クラスタ連携ツール)またはlibvirtをシャットダウン機構へ設定後に実施してください。
注意
下記の1.から6.までの操作はすべてのゲストOS(ノード)で実行してください。
参考
ログファイルについて
vmchkhost シャットダウンエージェントのログファイルは以下に出力されます。
/var/opt/SMAWsf/log/SA_vmchkhost.log
パスワードの暗号化
Xen環境では、vmSP(VM用クラスタ連携ツール)をシャットダウン機構に設定する際に使用した、すべての管理OSのアカウントFJSVvmSPの暗号化されたパスワードを使用します。
KVM環境では、libvirtをシャットダウン機構に設定する際に使用した、シャットダウン機構用の一般権限ユーザの暗号化されたパスワードを使用します。
シャットダウンエージェントを設定してください。
/etc/opt/SMAW/SMAWsf/SA_vmchkhost.cfgを以下のような内容で作成します。
guest-cfname host-cfname ip-address user password
guest-cfname host-cfname ip-address user password
guest-cfname : ゲストOSのCFノード名です。 host-cfname : 管理OSのCFノード名です。 ip-address : 管理OSのIPアドレスです。 指定可能なアドレス形式は、IPv4アドレスおよびIPv6アドレスです。 IPv6のリンクローカルアドレスは使用できません。 user : 管理OSのアカウントです。 Xen環境の場合は、FJSVvmSPを固定で指定します。 KVM環境の場合は、libvirtをシャットダウン機構に設定する際に作成したユーザ名を指定します。 password : “user”で指定したアカウントのログインパスワードです。 1.のパスワードの暗号化で確認したものを指定します。
例)設定例を以下に示します。
node1(ゲストOSのCFノード名)が動作する管理OSのCFノード名がhostos1で、管理OSのIPアドレスが10.20.30.50、node2(ゲストOSのCFノード名)が動作する管理OSのCFノード名がhostos2で、管理OSのIPアドレスが10.20.30.51の場合
Xen環境の場合
# cat /etc/opt/SMAW/SMAWsf/SA_vmchkhost.cfg node1 hostos1 10.20.30.50 FJSVvmSP 3CA1wxVXKD8a93077BaEkA== node2 hostos2 10.20.30.51 FJSVvmSP 3CA1wxVXKD8a93077BaEkA==
KVM環境の場合
# cat /etc/opt/SMAW/SMAWsf/SA_vmchkhost.cfg node1 hostos1 10.20.30.50 user D0860AB04E1B8FA3 node2 hostos2 10.20.30.51 user D0860AB04E1B8FA3
注意
/etc/opt/SMAW/SMAWsf/SA_vmchkhost.cfgファイルの設定内容が正しいか確認してください。設定内容に誤りがあった場合、シャットダウン機構が正常に動作できなくなります。
/etc/opt/SMAW/SMAWsf/SA_vmchkhost.cfgファイルのクラスタホストのCFノード名(CFNameX)に対応した、ゲストOSのドメイン名(domainX)と管理OSのIPアドレス(ip-address)が設定されているか確認してください。設定に誤りがあった場合、シャットダウン機構が正常に動作できなくなります。
管理OSへのログイン
シャットダウン機構は、対象ノードへSSHでアクセスするため、SSH初回時のユーザ問い合わせ(RSA 鍵の生成)を済ませておく必要があります。
vmSP(VM用クラスタ連携ツール) またはlibvirtをシャットダウン機構に設定する際にSSH初回時のユーザ問い合わせ(RSA 鍵の生成)を済ませているか確認してください。
シャットダウンデーモンの設定
/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxxx,timeout=timeout CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxxx,timeout=timeout
CFNameX :クラスタホストのCFノード名を指定します。 weight :SFのノードの重みを指定します。 myadmIP :自ゲストOS(ノード)の管理LANのIPアドレスを指定します。 指定可能なアドレス形式は、IPv4アドレスおよびIPv6アドレスです。 IPv6のリンクローカルアドレスは使用できません。 IPv6アドレスを指定する場合は、角括弧[ ]で囲んでください。 (例 [1080:2090:30a0:40b0:50c0:60d0:70e0:80f0]) SA_xxxx :シャットダウンエージェントの名前を指定します。 ここでは、“SA_vmchkhost”を指定します。 timeout :シャットダウンエージェントのタイムアウト時間(秒)を指定します。 SA_vmchkhostには、35秒を指定します。
例)設定例を以下に示します。
Xen環境の場合
# cat /etc/opt/SMAW/SMAWsf/rcsd.cfg node1,weight=2,admIP=fuji2:agent=SA_vmSPgp,timeout=35:agent=SA_vmSPgr,timeout=35:agent=SA_vmchkhost,timeout=35 node2,weight=1,admIP=fuji3:agent=SA_vmSPgp,timeout=35:agent=SA_vmSPgr,timeout=35:agent=SA_vmchkhost,timeout=35
KVM環境の場合
# cat /etc/opt/SMAW/SMAWsf/rcsd.cfg node1,weight=2,admIP=fuji2:agent=SA_libvirtgp,timeout=35:agent=SA_libvirtgr,timeout=35:agent=SA_vmchkhost,timeout=35 node2,weight=1,admIP=fuji3:agent=SA_libvirtgp,timeout=35:agent=SA_libvirtgr,timeout=35:agent=SA_vmchkhost,timeout=35
注意
rcsd.cfgファイルで設定するシャットダウンエージェントは、SA_vmSPgp、SA_vmSPgr、SA_vmchkhostの順番で両方のシャットダウンエージェントを設定してください。
SA_vmchkhost.cfg、rcsd.cfgファイルの内容はすべてのゲストOS(ノード)で同一にしてください。同一でない場合誤動作します。
シャットダウン機構の起動
全ノードでシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ノードでシャットダウン機構を再起動してください。
# sdtool -e # sdtool -b
シャットダウン機構が起動していない場合、以下を実行して全ノードでシャットダウン機構を起動してください。
# sdtool -b
シャットダウン機構の状態確認
シャットダウン機能の状態を確認してください。
# sdtool -s
参考
sdtool -s コマンドの表示結果について
初期状態がInitFailed と表示された場合は、そのシャットダウンエージェントの初期化で問題が発生したことを示しています。
テスト状態にTestFailed と表示された場合は、クラスタホスト欄に表示されたノードを停止できるかどうかをエージェントがテストしている間に問題が発生したことを示しています。このような場合には、そのエージェントが使用しているソフトウェア、ハードウェア、ネットワーク資源、管理OSに何らかの問題が生じていることが考えられます。
SSHの最大同時接続数が"クラスタ構成ノード数"以下の場合、シャットダウン機構の状態が InitFailed または TestFailed で表示されることがあります。SSHの最大同時接続数が"クラスタ構成ノード数+1"以上となるように設定を変更してください。
停止状態または初期状態にUnknown と表示された場合は、SF がノードの停止、経路のテスト、SA の初期化をまだ行っていないことを表しています。テスト状態および初期状態には、実際の状態が確認されるまで一時的にUnknown が表示されます。
TestFailed またはInitFailed が表示された場合は、SA ログファイルまたは、/var/log/messages を確認してください。ログファイルには、SA のテストまたは初期化に失敗した理由が記録されています。失敗した問題が解決されSF が再起動されると、状態の表示がInitWorked またはTestWorked に変わります。
ここでは、PRIMEQUESTのKVM環境で管理OS異常切替機能を使用する場合の設定手順について説明します。
本設定は、ゲストOS(ノード)でlibvirtとvmchkhostをシャットダウン機構へ設定後に実施してください。
注意
下記の1.から4.までの操作はすべての管理OS(ノード)で実行してください。
パスワードの暗号化
sfcipherコマンドを実行し、ゲストOS(ノード)へrootユーザでログインするためのパスワードを暗号化します。
sfcipherコマンドの使用法については、sfcipherのマニュアルページを参照してください。
# sfcipher -c
Enter User's Password:
Re-enter User's Password:
D0860AB04E1B8FA3
/etc/opt/FJSVcluster/etc/kvmguests.confの作成
/etc/opt/FJSVcluster/etc/kvmguests.confを以下の内容で作成します。
guest-name host-cfname guest-clustername guest-cfname guest_IP guest_user guest_passwd :
kvmguests.conf ファイルはシステム管理者権限で作成し、パーミッションを600にしてください。
1行に1ノード分の情報を記載してください。
各項目は空白1文字で区切ってください。
kvmguests.conf ファイルは、すべてのクラスタノードで同一にしてください。
guest-name : ゲストOSのドメイン名を指定します。 host-cfname : “guest-name”が動作している管理OSのCFノード名を指定します。 “guest-name”が動作している管理OSで“cftool -l”を実行すると、そのノードのCFノード名が確認できます。 guest-clustername : ゲストOSのクラスタ名を指定します。
ゲストOSで“cftool -c”を実行すると、そのノードのクラスタ名が確認できます。 guest-cfname : ゲストOSのCFノード名を指定します。
ゲストOSで“cftool -l”を実行すると、そのノードのCFノード名が確認できます。
guest_IP : ゲストOSのIPアドレスを指定します。
指定可能なアドレス形式は、IPv4アドレスおよびIPv6アドレスです。
IPv6のリンクローカルアドレスは使用できません。
guest_user : ゲストOSへログインするためのユーザ名を指定します。
rootを固定で指定します。
guest_passwd : ゲストOSへログインするためのパスワードを指定します。
1.で暗号化したパスワードを指定します。
例)2ノード構成のゲストOS間でクラスタシステムが2セット構築されている場合
guest11 cfhost1 cluster1 cfguest11 10.20.30.50 root D0860AB04E1B8FA3 guest12 cfhost2 cluster1 cfguest12 10.20.30.51 root D0860AB04E1B8FA3 guest21 cfhost1 cluster2 cfguest21 10.20.30.60 root D0860AB04E1B8FA3 guest22 cfhost2 cluster2 cfguest12 10.20.30.61 root D0860AB04E1B8FA3
ゲストOSへのログイン確認
シャットダウン機構は、ゲストOSへSSHでアクセスするため、SSH初回時のユーザ問い合わせ(RSA 鍵の生成)を済ませておく必要があります。
/etc/opt/FJSVcluster/etc/kvmguests.conf に定義したすべてのゲストOS(ノード)に対して、rootユーザでSSH接続を行い、ログインできることを確認してください。
# ssh -l root XXX.XXX.XXX.XXX
The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established.
RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx.
Are you sure you want to continue connecting (yes/no)? yes ←yes と入力
シャットダウン機構の起動
全ノードでシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ノードでシャットダウン機構を再起動してください。
# sdtool -e # sdtool -b
シャットダウン機構が起動していない場合、以下を実行して全ノードでシャットダウン機構を起動してください。
# sdtool -b