ここでは、PRIMERGY/PRIMEQUESTのシャットダウン機構の設定手順について説明します。
シャットダウン機構の設定手順は、機種/構成により異なります。ハードウェアの機種/構成を確認して適切なシャットダウンエージェントを設定してください。
以下に機種/構成により必要なシャットダウンエージェントを示します。
サーバ機種 | SA_lkcd | SA_ipmi | SA_blade |
---|---|---|---|
BX620/920 シリーズ | ○ | × | ○ |
RX200/300/600 シリーズ | ○ | ○ | × |
TX200/300 シリーズ | ○ | ○ | × |
サーバ機種 | クラスタ構成 | ||||||
---|---|---|---|---|---|---|---|
ネイティブ間 | 仮想マシン機能 | ||||||
筐体内ゲスト間 | 他筐体ゲスト間 | ||||||
MMB | VMGuest | ||||||
Panic | Reset | Panic | Reset | Panic | Reset | ||
PRIMEQUEST | 400シリーズ | SA_mmbp | SA_mmbr | - | - | - | - |
500シリーズ | SA_mmbp | SA_mmbr | SA_vmgp | - | - | - | |
1000シリーズ | SA_mmbp | SA_mmbr | SA_vmSPgp | SA_vmSPgr | SA_vmSPgp | SA_vmSPgr |
注意
シャットダウン機構に使用する管理LANをGLSで二重化する場合は、NIC切替方式の論理IPアドレス引継ぎ機能を使用し、シャットダウン機構の管理LANには物理IPアドレスを設定してください。
参照
シャットダウン機構についての詳細は、以下のマニュアルを参照してください。
“PRIMECLUSTER コンセプトガイド”の“3.3.1.8 PRIMECLUSTER SF”
“PRIMECLUSTER Cluster Foundation 導入運用手引書”の“8 シャットダウン機構(SF)”
使用するシャットダウンエージェントについて、情報を確認します。
注意
シャットダウンエージェントの情報確認は、クラスタの初期設定前に実施してください。
■MMBの確認
MMBを使用している場合は、以下の設定を確認してください。
RMCPでMMBを制御するためのユーザの[Privilege]が「Admin」になっているか。
RMCPでMMBを制御するためのユーザの[Status]が「Enabled」になっているか。
RMCPでMMBを制御するためのユーザの設定を確認するには、MMB Web-UIにログインし、“Network Configuration”メニューの“Remote Server Management”画面から確認します。
上記のとおりに設定されていない場合は、上記のようにMMBを設定してください。
また、MMBに関する以下の情報をメモしてください。
RMCPでMMBを制御するためのユーザ名 (*1)
RMCPでMMBを制御するためのユーザのパスワード
*1) Adminの権限を付加されたユーザでなければなりません。
注意
MMBには以下の2種類のユーザが存在します。
MMB全体を制御するためのユーザ
RMCPでMMBを制御するためのユーザ
ここで確認するユーザはRMCPでMMBを制御するためのユーザです。誤らないようにしてください。
参照
MMBの設定方法、確認方法については、“PRIMEQUEST 500/400シリーズ リファレンスマニュアル: 基本操作/GUI/コマンド”、または“PRIMEQUEST 1000 シリーズ 運用管理ツールリファレンス”を参照してください。
■仮想マシンの確認
PRIMEQUEST400/500シリーズでVMGuest(仮想マシン機能におけるシャットダウンエージェント)を使用する場合、および、PRIMEQUEST1000シリーズでvmSP(VM用クラスタ連携ツール)をシャットダウン機構に設定する場合、ゲストOSを強制停止するために、SSH で管理OSにログインします。そのため、以下の情報を設定する必要があります。
管理OSのIPアドレス
管理OSにログインするためのユーザ名(FJSVvmSP)
管理OSにログインするためのユーザのパスワード
管理OSにログインするためのユーザ名とパスワードについては、“3.2.1.1 管理OSの設定”で設定した情報をメモしてください。
クラスタインタコネクトの障害によりクラスタパーティションが発生した場合、まだ全ノードがユーザ資産にアクセスできる状態にあります。クラスタパーティションについては、“PRIMECLUSTER コンセプトガイド”の“2.2.2.1 データ整合性の保証”を参照してください。
ユーザ資産であるデータの整合性を保証するために、生存させるノード群と強制停止させるノード群を決定する必要があります。
PRIMECLUSTERでは、それぞれのノード群に対する重み付けを「生存優先度」と呼んでいます。
ノードの重みが大きいほど生存優先度は高くなり、小さくなるにつれて生存優先度は低くなります。ノード群の生存優先度が同じ場合は、ノード名がアルファベット順で最も早いノードを含むノード群が生存します。
生存優先度は、以下の計算で求められます。
生存優先度=SFのノードの重み(weight)+userApplicationの ShutdownPriority
ノードの重み。デフォルト値=1。シャットダウン機能の設定の際に指定します。
設定はuserApplication作成時の属性設定で行ってください。設定値の変更方法については、“8.5 userApplicationの運用属性の変更”を参照してください。
参照
userApplicationのShutdownPriority属性については、“PRIMECLUSTER RMS 導入運用手引書”の“11.1 ユーザ設定属性”を参照してください。
以下に、代表的なケースをもとに、生存優先度の設計指針を示します。
全てのノードのweightを1(デフォルト)に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
生存させるノードのweightをその他ノードのweightの合計の2倍以上の値に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
以下は、node1を生存させる場合の例です。
全てのノードのweightを1(デフォルト)に設定
動作を続けさせるユーザアプリケーションのShutdownPriority属性をその他のユーザアプリケーションのShutdownPriority属性と全てのノードのweightの合計の2倍以上の値に設定
以下は、app1が動作しているノードを生存させる場合の例です。
PRIMERGYでシャットダウンエージェントを設定する手順について説明します。
注意
シャットダウンエージェント設定後は、正しいノードが強制停止できることを確認するため、クラスタノード強制停止テストを実施してください。クラスタノード強制停止テストの詳細については、“1.4 テスト”を参照してください。
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP: agent=SA_xxx,timeout=20 CFNameX,weight=weight,admIP=myadmIP: agent=SA_xxx,timeout=20
CFNameX : クラスタホストのCFノード名を指定します。 weight : SFのノードの重みを指定します。 myadmIP : 自ノードの管理LANのIPアドレスを指定します。 SA_xxx : シャットダウンエージェントの名前を指定します。 - IPMIシャットダウンエージェントの場合 SA_ipmiを指定します。 - Bladeシャットダウンエージェントの場合 SA_bladeを指定します。
例)IPMIシャットダウンエージェントの場合
node1, weight=1, admIP=10.20.30.100: agent=SA_ipmi, timeout=25 node2, weight=1, admIP=10.20.30.101: agent=SA_ipmi, timeout=25
例)Bladeシャットダウンエージェントの場合
node1, weight=1, admIP=10.20.30.100: agent=SA_blade, timeout=20 node2, weight=1, admIP=10.20.30.101: agent=SA_blade, timeout=20
注意
IPMIシャットダウンエージェントの場合、timeoutには“25”を指定します。
PRIMERGY でSTP(スパニングツリープロトコル)を使用する場合には、STPがツリーを作成する時間と余裕を考慮し、SFのタイムアウト値を、現在設定されている値+50(秒)にする必要があります。この設定により、フェイルオーバに要する時間も遅くなります。
参考
/etc/opt/SMAW/SMAWsf/rcsd.cfgファイルを作成する場合、/etc/opt/SMAW/SMAWsf/rcsd.cfg.templateファイルを雛型として使用することができます。
BMC(Baseboard Management Controller)、またはiRMC(integrated Remote Management Controller)が搭載されているサーバの場合、IPMIシャットダウンエージェントを設定してください。
IPMIシャットダウンエージェントの設定は、Diskdumpシャットダウンエージェント、またはkdumpシャットダウンエージェントの設定前に行ってください。
全ノードで/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgを以下のような内容で作成します。
CFName1 ip-address:user:passwd {cycle | leave-off} CFName2 ip-address:user:passwd {cycle | leave-off}
CFNameX : クラスタホストのCFノード名 ip-address : IPMI(BMC, iRMC)のIPアドレス user : IPMI(BMC, iRMC)設定時に定義したユーザ名 passwd : IPMI(BMC, iRMC)設定時に定義したパスワード パスワードには、英数字と以下の記号が使用できます。 # % * + - . @ [ ] ^ _ { } ~ cycle : ノード強制停止後、リブートします。 leave-off : ノード強制停止後、電源切断します。
例)
node1 10.20.30.50:root:bmcpwd cycle
node2 10.20.30.51:root:bmcpwd cycle
参考
/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgファイルを作成する場合、/etc/opt/SMAW/SMAWsf/SA_ipmi.cfg.templateファイルを雛形として使用することができます。
注意
/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgファイルの設定内容が正しいか確認してください。設定内容に誤りがあった場合、シャットダウン機構が正常に動作できなくなります。
/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgファイルのクラスタホストのCFノード名(CFNameX)に対応した、IPMI(BMC, iRMC)のIPアドレス(ip-address)が設定されているか確認してください。設定に誤りがあった場合、誤ったノードが強制停止されることがあります。
IPMI(BMC, iRMC)設定時に定義したパスワードに記号を使用した場合、記号の前にエスケープ文字を意味する'\'の追加は不要です。
例) IPMI(BMC, iRMC)設定時に定義したパスワードが"bmcpwd#"の場合
node1 10.20.30.50:root:bmcpwd# cycle node2 10.20.30.51:root:bmcpwd# cycle
/etc/opt/SMAW/SMAWsf/SA_ipmi.cfgファイルのパーミッションを、以下のコマンドを実行して600に変更してください。
# chmod 600 /etc/opt/SMAW/SMAWsf/SA_ipmi.cfg
ブレードサーバの場合、Bladeシャットダウンエージェントを設定してください。
Bladeシャットダウンエージェントの設定は、Diskdumpシャットダウンエージェント、またはkdumpシャットダウンエージェントの設定前に行ってください。
全ノードで/etc/opt/SMAW/SMAWsf/SA_blade.cfgを以下のような内容で作成します。
(1) 同一シャーシ内のクラスタ構成の場合
management-blade-ip IPaddress community-string SNMPcommunity
CFName1 slot-no {cycle | leave-off}
CFName2 slot-no {cycle | leave-off}
(2) 複数シャーシのクラスタ構成の場合
community-string SNMPcommunity management-blade-ip IPaddress CFName1 slot-no {cycle | leave-off}
management-blade-ip IPaddress
CFName2 slot-no {cycle | leave-off}
IPaddress : マネージメントブレードのIPアドレス SNMPcommunity : SNMP コミュニティ CFNameX : クラスタホストのCFノード名 slot-no : サーバブレードのスロット番号 cycle : ノード強制停止後、リブートします。 leave-off : ノード強制停止後、電源切断します。
例1)
management-blade-ip 10.20.30.50 community-string public
node1 1 cycle
node2 2 cycle
例2)
community-string public
management-blade-ip 10.20.30.50
node1 1 cycle
management-blade-ip 10.20.30.51
node2 2 cycle
参考
/etc/opt/SMAW/SMAWsf/SA_blade.cfgを作成する場合、/etc/opt/SMAW/SMAWsf/SA_blade.cfg.templateファイルを雛型として使用することができます。
注意
/etc/opt/SMAW/SMAWsf/SA_blade.cfgファイルの設定内容が正しいか確認してください。設定内容に誤りがあった場合、シャットダウン機構が正常に動作できなくなります。
/etc/opt/SMAW/SMAWsf/SA_blade.cfgファイルのクラスタホストのCFノード名(CFNameX)に対応した、マネージメントブレードのIPアドレス(IPaddress)とサーバブレードのスロット番号(slot-no)が設定されているか確認してください。設定に誤りがあった場合、誤ったノードが強制停止されることがあります。
/etc/opt/SMAW/SMAWsf/SA_blade.cfgファイルのパーミッションを、以下のコマンドを実行して600に変更してください。
# chmod 600 /etc/opt/SMAW/SMAWsf/SA_blade.cfg
注意
rcsd.cfg, SA_ipmi.cfg, SA_blade.cfgファイルの内容は全ノードで同一にしてください。同一でない場合、誤動作することがあります。
クラッシュダンプの採取にDiskdumpを使用する場合、Diskdumpシャットダウンエージェントの設定を行ってください。
Diskdump用定義ファイルの初期化
クラスタシステムを構成するいずれかのノードで以下のコマンドを実行します。
# /etc/opt/FJSVcllkcd/bin/panicinfo_setup
注意
本コマンドは、CFおよびCFのサービス(CFSH, CFCP)が動作していることを前提としています。設定の詳細については、“5.1.1 CF、CIPの設定”の注意事項を参照してください。
また、IPMIシャットダウンエージェント、およびBlade シャットダウンエージェントの設定を事前に行う必要があります。
クラッシュダンプ採取の設定
設定方法はノードの機種により異なります。
PRIMERGY RX200/300/600 シリーズ 、TX200/300 シリーズの場合
Red Hat Enterprise Linux AS (4.6 for x86、4.7 for x86および4.8 for x86)の場合
全ノードで/etc/opt/FJSVcllkcd/etc/SA_lkcd.toutを以下に変更します。
変更前
PANICINFO_TIMEOUT 5 RSB_PANIC 0
変更後
PANICINFO_TIMEOUT 10 RSB_PANIC 3
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgのSA_lkcdのtimeout値を以下に変更します。
変更前
gent=SA_lkcd,timeout=20
変更後
agent=SA_lkcd,timeout=25
Red Hat Enterprise Linux AS (4.6 for EM64T、4.7 for EM64Tおよび4.8 for EM64T)の場合
全ノードで/etc/opt/FJSVcllkcd/etc/SA_lkcd.toutを以下に変更します。
変更前
PANICINFO_TIMEOUT 5 RSB_PANIC 0 RSB_TRIAL 5
変更後
PANICINFO_TIMEOUT 10 RSB_PANIC 3 RSB_TRIAL 12
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgのSA_lkcdのtimeout値を以下に変更します。
変更前
agent=SA_lkcd,timeout=20
変更後
agent=SA_lkcd,timeout=72
ブレードサーバの場合 (BX620/920 シリーズ)
Red Hat Enterprise Linux AS (4.6 for x86、4.7 for x86および4.8 for x86)の場合
全ノードで/etc/opt/FJSVcllkcd/etc/SA_lkcd.toutを以下に変更します。
変更前
RSB_PANIC 0
変更後
RSB_PANIC 2
Red Hat Enterprise Linux AS (4.6 for EM64T、4.7 for EM64Tおよび4.8 for EM64T)の場合
全ノードで/etc/opt/FJSVcllkcd/etc/SA_lkcd.toutを以下に変更します。
変更前
RSB_PANIC 0 RSB_TRIAL 5
変更後
RSB_PANIC 2 RSB_TRIAL 12
全ノードで /etc/opt/SMAW/SMAWsf/rcsd.cfgのSA_lkcdのtimeout値を以下に変更します。
変更前
agent=SA_lkcd,timeout=20
変更後
agent=SA_lkcd,timeout=72
クラッシュダンプの採取にkdumpを使用する場合、kdumpシャットダウンエージェントの設定を行ってください。
kdump用定義ファイルの初期化
クラスタシステムを構成するいずれかのノードで以下のコマンドを実行します。
# /etc/opt/FJSVcllkcd/bin/panicinfo_setup
注意
本コマンドは、CFおよびCFのサービス(CFSH, CFCP)が動作していることを前提としています。設定の詳細については、“5.1.1 CF、CIPの設定”の注意事項を参照してください。
クラッシュダンプ採取の設定
設定方法はノードの機種により異なります。
PRIMERGY RX200/300/600 シリーズ 、TX200/300 シリーズの場合
全ノードで/etc/opt/FJSVcllkcd/etc/SA_lkcd.toutを以下に変更します。
変更前
PANICINFO_TIMEOUT 5 RSB_PANIC 0
変更後
PANICINFO_TIMEOUT 10 RSB_PANIC 3
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgのSA_lkcdのtimeout値を以下に変更します。
変更前
agent=SA_lkcd,timeout=20
変更後
agent=SA_lkcd,timeout=25
ブレードサーバの場合 (BX620/920 シリーズ)
全ノードで/etc/opt/FJSVcllkcd/etc/SA_lkcd.toutのRSB_PANICの値を以下に変更します。
変更前
RSB_PANIC 0
変更後
RSB_PANIC 2
全ノードでシャットダウン機構を起動または再起動させます。
シャットダウンデーモン(rcsd)が未起動の場合
sdtool -bで起動します。
# sdtool -b
シャットダウンデーモン(rcsd)が動作中の場合
sdtool -eでシャットダウンデーモン(rcsd)を停止した後、sdtool -bで起動します。
# sdtool -e # sdtool -b
シャットダウンデーモン(rcsd)が動作中かどうかは sdtool -sで確認できます。
# sdtool -s
全ノードでsdtool -sを実行することで、シャットダウン機構の構成状態を確認することができます。
注意
sdtool -s コマンドの表示結果で、シャットダウン機構が正常に動作していることを確認してください。
シャットダウン機構の設定が完了しているのに、初期状態がInitFailedと表示されたり、テスト状態にUnknownやTestFailedと表示されたりする場合、エージェントやハードウェアの構成設定に誤りがある可能性があります。/var/log/messages ファイルにエラーメッセージが出力されていないかを確認してください。その後、出力されたメッセージの内容に応じた対処を実施してください。
PRIMEQUESTでシャットダウンエージェントを設定する手順について説明します。
注意
シャットダウンエージェント設定後は、正しいノードが強制停止できることを確認するため、クラスタノード強制停止テストを実施してください。クラスタノード強制停止テストの詳細については、“1.4 テスト”を参照してください。
ここでは、MMBをシャットダウン機構に設定する手順について説明します。
シャットダウン機構を設定する前にシャットダウンエージェントの情報確認を行ってください。
MMBシャットダウン機構の設定
注意
ここで説明するMMB情報の登録は、“5.1.1 CF、CIPの設定”の後、また、後述の“■シャットダウンデーモンの設定”の前に実施してください。
全ノードでclmmbsetup -a コマンドを実行し、MMB情報を登録します。
clmmbsetupコマンドの使用法については、clmmbsetupのマニュアルページを参照してください。
# /etc/opt/FJSVcluster/bin/clmmbsetup -a mmb-user Enter User's Password: Re-enter User's Password:
mmb-userとUser's Passwordには、“5.1.2.1 シャットダウンエージェントの情報確認”で確認した以下の内容を入力します。
RMCPでMMBを制御するためのユーザ名
RMCPでMMBを制御するためのユーザのパスワード
注意
ユーザのパスワードに使用可能な文字は英数字のみです。記号は使用できません。
全ノードでclmmbsetup -l コマンドを実行し、登録されたMMB情報を確認します。
手順1.で登録したMMB情報が全ノードで出力されない場合、再度手順1.からやり直してください。
# /etc/opt/FJSVcluster/bin/clmmbsetup -l
cluster-host-name user-name
-----------------------------------
node1 mmb-user
node2 mmb-user
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP: agent=SA_xxx,timeout=20 CFNameX,weight=weight,admIP=myadmIP: agent=SA_xxx,timeout=20
CFNameX : クラスタホストのCFノード名を指定します。 weight : SFのノードの重みを指定します。 myadmIP : 自ノードの管理LANのIPアドレスを指定します。 SA_xxx : シャットダウンエージェントの名前を指定します。 - MMB経由でノードをパニックさせる場合 SA_mmbp を指定します。 - MMB経由でノードをリセットさせる場合 SA_mmbr を指定します。
例)2ノード構成の設定例を以下に記載します。
# cat /etc/opt/SMAW/SMAWsf/rcsd.cfg
node1,weight=2,admIP=fuji2:agent=SA_mmbp,timeout=20:agent=SA_mmbr,timeout=20 node2,weight=2,admIP=fuji3:agent=SA_mmbp,timeout=20:agent=SA_mmbr,timeout=20
注意
rcsd.cfgファイルで設定するシャットダウンエージェントは、SA_mmbp、SA_mmbrの順番で両方のシャットダウンエージェントを設定してください。
rcsd.cfgファイルの内容は全ノードで同一にしてください。同一でない場合、誤動作することがあります。
参考
/etc/opt/SMAW/SMAWsf/rcsd.cfgファイルを作成する場合、/etc/opt/SMAW/SMAWsf/rcsd.cfg.mmb.templateファイルを雛型として使用することができます。
MMB非同期監視デーモンの起動
全ノードでMMB非同期監視デーモンが起動済か確認してください。
# /etc/opt/FJSVcluster/bin/clmmbmonctl
“The devmmbd daemon exists.”が表示された場合、MMB非同期監視デーモンは起動済です。
“The devmmbd daemon does not exist.”が表示された場合、MMB非同期監視デーモンは起動していません。以下を実行し、MMB非同期監視デーモンを起動してください。
# /etc/opt/FJSVcluster/bin/clmmbmonctl start
シャットダウン機構の起動
全ノードでシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ノードでシャットダウン機構を再起動してください。
# sdtool -e # sdtool -b
シャットダウン機構が起動していない場合、以下を実行して全ノードでシャットダウン機構を起動してください。
# sdtool -b
シャットダウン機構の状態確認
全ノードでシャットダウン機構の状態を確認してください。
# sdtool -s
参考
初期状態がInitFailed と表示された場合は、そのシャットダウンエージェントの初期化で問題が発生したことを示しています。
テスト状態にTestFailed と表示された場合は、クラスタホスト欄に表示されたノードを停止できるかどうかをエージェントがテストしている間に問題が発生したことを示しています。 このような場合には、そのエージェントが使用しているソフトェア、ハードウェア、ネットワーク資源に何らかの問題が生じていることが考えられます。
停止状態または初期状態にUnknown と表示された場合は、SF がノードの停止、経路のテスト、SA の初期化をまだ行っていないことを表しています。 テスト状態および初期状態には、実際の状態が確認されるまで一時的にUnknown が表示されます。
TestFailed またはInitFailed が表示された場合は、SA ログファイルまたは、/var/log/messages を確認してください。ログファイルには、SA のテストまたは初期化に失敗した理由が記録されています。失敗した問題が解決されSF が再起動されると、状態の表示がInitWorked またはTestWorked に変わります。
注意
OS起動直後に“sdtool -s”を実行すると、自ノードのテスト状態にTestFailedと表示される場合がありますが、これはsnmptrapdデーモンが起動中のため表示されるもので、正しい動作です。シャットダウン機構が起動した10分後に“sdtool -s”を実行すると、テスト状態にTestWorkedが表示されます。
以下の例では、自ノード(node1)のテスト状態にTestFailedが表示されています。
# sdtool -s
Cluster Host Agent SA State Shut State Test State Init State
------------ ----- -------- ---------- ---------- ----------
node1 SA_mmbp.so Idle Unknown TestFailed InitWorked
node1 SA_mmbr.so Idle Unknown TestFailed InitWorked
node2 SA_mmbp.so Idle Unknown TestWorked InitWorked
node2 SA_mmbr.so Idle Unknown TestWorked InitWorked
また、同じ理由により、OS起動直後に以下のメッセージが出力される場合があります。
3084: Monitoring another node has been stopped. SA SA_mmbp.so to test host nodename failed SA SA_mmbr.so to test host nodename failed
これも、snmptrapdデーモンが起動中のため出力されるもので、正しい動作です。シャットダウン機構が起動した10分後に以下のメッセージが出力されます。
3083: Monitoring another node has been started.
SA_mmbr シャットダウンエージェントによるノードの強制停止を行うと、以下のメッセージが出力される場合がありますが、これはノードの強制停止に時間がかかっているもので、正しい動作です。
Fork SA_mmbp.so(PID pid) to shutdown host nodename : SA SA_mmbp.so to shutdown host nodename failed : Fork SA_mmbr.so(PID pid) to shutdown host nodename : SA SA_mmbr.so to shutdown host nodename failed : MA SA_mmbp.so reported host nodename leftcluster, state MA_paniced_fsnotflushed : MA SA_mmbr.so reported host nodename leftcluster, state MA_paniced_fsnotflushed : Fork SA_mmbp.so(PID pid) to shutdown host nodename : SA SA_mmbp.so to shutdown host nodename succeeded
上記メッセージが出力された後に“sdtool -s”を実行すると、SA_mmbp.so の停止状態に KillWorked が表示され、SA_mmbr.so の停止状態に KillFailed が表示されます。
以下は、node1 から node2 の強制停止を行い、上記メッセージが出力された後に“sdtool -s”を実行した場合の表示例です。
# sdtool -s
Cluster Host Agent SA State Shut State Test State Init State
------------ ----- -------- ---------- ---------- ----------
node1 SA_mmbp.so Idle Unknown TestWorked InitWorked
node1 SA_mmbr.so Idle Unknown TestWorked InitWorked
node2 SA_mmbp.so Idle KillWorked TestWorked InitWorked
node2 SA_mmbr.so Idle KillFailed TestWorked InitWorked
“sdtool -s”で表示された KillFailed を復旧する場合は、以下の手順で復旧してください。
# sdtool -e # sdtool -b # sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- node1 SA_mmbp.so Idle Unknown TestWorked InitWorked node1 SA_mmbr.so Idle Unknown TestWorked InitWorked node2 SA_mmbp.so Idle Unknown TestWorked InitWorked node2 SA_mmbr.so Idle Unknown TestWorked InitWorked
I/O完了待ち時間の設定
パニックなどのノードダウンによる切替え時、I/Oが完了するまでの待ち時間 (WaitForIOComp)の設定は、以下の手順で実施してください。
共用ディスクの事前確認
MMB非同期監視のパニックなどのノードダウンによる切替え時のI/O完了待ち時間は標準で0秒を設定していますが、I/O完了待ち時間が必要な共用ディスクを使用する場合、この値を適切な値に設定する必要があります。
参考
ETERNUS ディスクアレイの場合、I/O完了待ち時間が不要ですので、本設定を行う必要はありません。
注意
I/O完了待ち時間を設定した場合、パニックなどのノードダウン時の切替え時間がその時間分増加します。
I/O完了待ち時間の設定
以下のコマンドを実行し、パニックなどのノードダウンによる切替え時のI/Oが完了するまでの待ち時間(WaitForIOComp)を設定してください。cldevparamコマンドについて、詳しくはcldevparamのマニュアルページを参照してください。
なお、クラスタシステムを構成する任意の1ノードで実行してください。
# /etc/opt/FJSVcluster/bin/cldevparam -p WaitForIOComp value
また、以下のコマンドを実行し、I/Oが完了するまでの待ち時間(WaitForIOComp)の設定を確認してください。
# /etc/opt/FJSVcluster/bin/cldevparam -p WaitForIOComp value
シャットダウン機構の起動
全ノードでシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ノードでシャットダウン機構を再起動してください。
# sdtool -r
シャットダウン機構が起動していない場合、以下を実行して全ノードでシャットダウン機構を起動してください。
# sdtool -b
シャットダウン機構の状態確認
全ノードでシャットダウン機構の状態を確認してください。
# sdtool -s
ここでは、PRIMEQUEST400/500シリーズでVmGuest(仮想マシン機能におけるシャットダウンエージェント)をシャットダウン機構に設定する手順について説明します。
シャットダウン機構を設定する前に“5.1.2.1 シャットダウンエージェントの情報確認”を行ってください。
注意
下記の操作はすべてのゲストOS(ノード)で実行してください。
●シャットダウンデーモンの設定
ノードがゲストOSである場合、clvmgsetup -a コマンドを実行し、ゲストOSの情報を登録します。全ゲストOS(ノード)上で実行してください。
clvmgsetupコマンドの使用法については、clvmgsetupのマニュアルページを参照してください。
# /etc/opt/FJSVcluster/bin/clvmgsetup -a host-user-name host-IPaddress Enter User's Password: Re-enter User's Password:
host-user-name と host-IPaddress と User's Password には、“5.1.2.1 シャットダウンエージェントの情報確認”で確認した以下の内容を入力します。
ゲストOSが属する仮想マシンシステムの管理OSにログインするためのユーザ名
ユーザ名には、FJSVvmSP を指定してください。
ゲストOSが属する仮想マシンシステムの管理OSで、MMBに接続された管理LANのIPアドレス
ゲストOSが属する仮想マシンシステムの管理OSにログインするためのユーザのパスワード
全ゲストOS(ノード)上でclvmgsetup -l コマンドを実行し、登録されたゲストOS情報を確認します。
手順1.で登録したゲストOSの情報が全ノードで出力されない場合、再度手順1.からやり直してください。
# /etc/opt/FJSVcluster/bin/clvmgsetup -l cluster-host-name host-IPaddress host-user-name domain-name ------------------------------------------------------------ node1 10.10.10.2 user1 node1
管理OSへのログイン
シャットダウン機構は、対象ノードへSSHでアクセスするため、SSH初回時のユーザ問い合わせ( RSA 鍵の生成)を済ませておく必要があります。
全ゲストOS(ノード)上で、1. で登録した管理OS の IP アドレス (host-IPaddress) に対して、1. で登録した管理OSのユーザ名 (host-user-name) でログインを実行してください。
# ssh -l FJSVvmSP XXX.XXX.XXX.XXX The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established. RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx. Are you sure you want to continue connecting (yes/no)? yes ←yes と入力
シャットダウンデーモンの設定
全ゲストOS (ノード)で /etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxxx,timeout=20
CFNameX :クラスタホストのCFノード名を指定します。 weight :SFのノードの重みを指定します。 myadmIP :自ゲストOS(ノード)の管理LANのIPアドレスを指定します。 SA_xxxx :シャットダウンエージェントの名前を指定します。 ここでは、“SA_vmgp”を指定します。
例)設定例を以下に示します。
# cat /etc/opt/SMAW/SMAWsf/rcsd.cfg
node1,weight=2,admIP=fuji2:agent=SA_vmgp,timeout=20 node2,weight=2,admIP=fuji3:agent=SA_vmgp,timeout=20
注意
rcsd.cfgファイルの内容は全ノードで同一にしてください。同一でない場合誤動作します。
シャットダウン機構の起動
全ゲストOS(ノード)でシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ゲストOS(ノード)でシャットダウン機構を再起動してください。
# sdtool -e # sdtool -b
シャットダウン機構が起動していない場合、以下を実行して全ゲストOS(ノード)でシャットダウン機構を起動してください。
# sdtool -b
シャットダウン機構の状態確認
全ゲストOS(ノード)でシャットダウン機構の状態を確認してください。
# sdtool -s
参考
初期状態がInitFailed と表示された場合は、そのシャットダウンエージェントの初期化で問題が発生したことを示しています。
テスト状態にTestFailed と表示された場合は、クラスタホスト欄に表示されたノードを停止できるかどうかをエージェントがテストしている間に問題が発生したことを示しています。 このような場合には、そのエージェントが使用しているソフトェア、ハードウェア、ネットワーク資源に何らかの問題が生じていることが考えられます。
SSHの最大同時接続数が"クラスタ構成ノード数"以下の場合、シャットダウン機構の状態が InitFailed または TestFailed で表示されることがあります。SSHの最大同時接続数が"クラスタ構成ノード数+1"以上となるように設定を変更してください。
停止状態または初期状態にUnknown と表示された場合は、SF がノードの停止、経路のテスト、SA の初期化をまだ行っていないことを表しています。 テスト状態および初期状態には、実際の状態が確認されるまで一時的にUnknown が表示されます。
TestFailed またはInitFailed が表示された場合は、SA ログファイルまたは、/var/log/messages を確認してください。ログファイルには、SA のテストまたは初期化に失敗した理由が記録されています。失敗した問題が解決されSF が再起動されると、状態の表示がInitWorked またはTestWorked に変わります。
ここでは、PRIMEQUEST1000シリーズでvmSP(VM用クラスタ連携ツール)をシャットダウン機構に設定する手順について説明します。
シャットダウン機構を設定する前に“5.1.2.1 シャットダウンエージェントの情報確認”を行ってください。
注意
下記の1.から6.までの操作はすべてのゲストOS(ノード)で実行してください。
パスワードの暗号化
sfcipher コマンドを実行し、クラスタノードとして設定したゲストOSが存在する、すべての管理OSのアカウントFJSVvmSPのパスワードを暗号化します。
sfcipher コマンドの使用法については、sfcipherのマニュアルページを参照してください。
# sfcipher -c
Enter User's Password:
Re-enter User's Password:
D0860AB04E1B8FA3
シャットダウンエージェントの設定
シャットダウンエージェントを設定してください。PANIC用シャットダウンエージェント(SA_vmSPgp)の場合は/etc/opt/SMAW/SMAWsf/SA_vmSPgp.cfg、RESET用シャットダウンエージェント(SA_vmSPgr)の場合は/etc/opt/SMAW/SMAWsf/SA_vmSPgr.cfgをそれぞれ以下のような内容で作成します。
CFNameX domainX ip-address user passwd CFNameX domainX ip-address user passwd
CFNameX : クラスタホストのCFノード名を指定します。 domainX : ゲストOSのドメイン名を指定します。 ip-address : 管理OSのIPアドレスを指定します。 user : 管理OSのアカウントFJSVvmSPを指定します。 passwd : 管理OSのアカウントFJSVvmSPのログインパスワードで、2.のパスワードの暗号化で暗号化したものを指定します。
例)設定例を以下に示します。
# cat /etc/opt/SMAW/SMAWsf/SA_vmSPgp.cfg
node1 domain1 10.20.30.50 FJSVvmSP D0860AB04E1B8FA3 node2 domain2 10.20.30.51 FJSVvmSP D0860AB04E1B8FA3
# cat /etc/opt/SMAW/SMAWsf/SA_vmSPgr.cfg
node1 domain1 10.20.30.50 FJSVvmSP D0860AB04E1B8FA3 node2 domain2 10.20.30.51 FJSVvmSP D0860AB04E1B8FA3
管理OSへのログイン
シャットダウン機構は、対象ノードへSSHでアクセスするため、SSH初回時のユーザ問い合わせ(RSA 鍵の生成)を済ませておく必要があります。
全ゲストOS(ノード)上でそれぞれ、2. で設定したすべての管理OS のIP アドレス (ip-address) に対して、2. で設定した管理OSのユーザ名 (user) でログインを実行してください。
# ssh -l FJSVvmSP XXX.XXX.XXX.XXX
The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established.
RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx.
Are you sure you want to continue connecting (yes/no)? yes ←yes と入力
シャットダウンデーモンの設定
/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxxx,timeout=35 CFNameX,weight=weight,admIP=myadmIP:agent=SA_xxxx,timeout=35
CFNameX :クラスタホストのCFノード名を指定します。 weight :SFのノードの重みを指定します。 myadmIP :自ゲストOS(ノード)の管理LANのIPアドレスを指定します。 SA_xxxx :シャットダウンエージェントの名前を指定します。 ここでは、“SA_vmSPgp”または” SA_vmSPgr”を指定します。
例)設定例を以下に示します。
# cat /etc/opt/SMAW/SMAWsf/rcsd.cfg
node1,weight=2,admIP=fuji2:agent=SA_vmSPgp,timeout=35:agent=SA_vmSPgr,timeout=35 node2,weight=2,admIP=fuji3:agent=SA_vmSPgp,timeout=35:agent=SA_vmSPgr,timeout=35
注意
rcsd.cfgファイルで設定するシャットダウンエージェントは、SA_vmSPgp、SA_vmSPgrの順番で両方のシャットダウンエージェントを設定してください。
SA_vmSPgp.cfg、SA_vmSPgr.cfg、rcsd.cfgファイルの内容はすべてのゲストOS(ノード)で同一にしてください。同一でない場合誤動作します。
シャットダウン機構の起動
全ノードでシャットダウン機構が起動済か確認してください。
# sdtool -s
シャットダウン機構が起動済の場合、以下を実行して全ノードでシャットダウン機構を再起動してください。
# sdtool -e # sdtool -b
シャットダウン機構が起動していない場合、以下を実行して全ノードでシャットダウン機構を起動してください。
# sdtool -b
シャットダウン機構の状態確認
シャットダウン機構の状態を確認してください。
# sdtool -s
参考
sdtool -s コマンドの表示結果について
初期状態がInitFailed と表示された場合は、そのシャットダウンエージェントの初期化で問題が発生したことを示しています。
テスト状態にTestFailed と表示された場合は、クラスタホスト欄に表示されたノードを停止できるかどうかをエージェントがテストしている間に問題が発生したことを示しています。このような場合には、そのエージェントが使用しているソフトウェア、ハードウェア、ネットワーク資源、管理OSに何らかの問題が生じていることが考えられます。
SSHの最大同時接続数が"クラスタ構成ノード数"以下の場合、シャットダウン機構の状態が InitFailed または TestFailed で表示されることがあります。SSHの最大同時接続数が"クラスタ構成ノード数+1"以上となるように設定を変更してください。
停止状態または初期状態にUnknown と表示された場合は、SF がノードの停止、経路のテスト、SA の初期化をまだ行っていないことを表しています。テスト状態および初期状態には、実際の状態が確認されるまで一時的にUnknown が表示されます。
TestFailed またはInitFailed が表示された場合は、SA ログファイルまたは、/var/log/messages を確認してください。ログファイルには、SA のテストまたは初期化に失敗した理由が記録されています。失敗した問題が解決されSF が再起動されると、状態の表示がInitWorked またはTestWorked に変わります。