SF 設定時のトラブル対処方法です。対象バージョンは、4.1 以降です。
■トラブル一覧
No. | 現象 | Solaris | Linux |
---|---|---|---|
シャットダウンエージェントの状態表示画面に "InitFailed"、"TestFailed" が表示される | ○ | ○ | |
Shutdown Facility の設定を実施したが、待機系の XSCF 関連の状態のみ "TestFailed" となる | ○ | - | |
SF 設定後、SF デーモン (rcsd) を起動させたが、コンソールにメッセージが表示され、SF デーモンの起動に失敗する | ○ | ○ | |
各シャットダウンエージェントのタイムアウト値の推奨値と設定方法がわからない | ○ | ○ | |
RCI アドレスを変更してノードを起動したらエラーメッセージが出力された | ○ | - | |
シャットダウン構成ウィザードで、「詳細な設定」から「編集」を選択し、<次へ>をクリックしたら、以下のメッセージがポップアップされた | ○ | - | |
シャットダウンエージェントとして、RCI パニック (SA_pprcip) と RCI リセット (SA_pprcir) を設定し、RCI ケーブルを抜いたが、強制停止 (カーネルパニック) が発生しない | ○ | - | |
MMB シャットダウンエージェントの設定後、シャットダウンエージェントの状態表示画面に "TestFailed" が表示される | - | ○ | |
IPMIシャットダウンエージェントを使用している場合、/var/log/messagesに以下のメッセージが出力される The SA <Shutdown Agent> to test host <nodename> has exceeded its configured timeout, <Process ID> will be terminated | - | ○ | |
SPARC Enterprise M4000,M5000,M8000,M9000で、シャットダウン機構の設定を行ったところ 7042 番のエラーメッセージが出力され、 XSCF シャットダウンエージェント (SA_xscfp.so, SA_rccu.so, SA_xscfr.so) のテスト状態(Test State)が TestFailedになった | ○ | - | |
PRIMEQUEST 500/400シリーズで、VMGuest シャットダウンエージェントの設定後、シャットダウンエージェントの状態表示画面に "TestFailed" が表示される | - | ○ | |
Solaris 環境において、SF ウィザード (GUI) でシャットダウン機構の設定を行ったところ、特定のノードだけシャットダウンエージェントの設定が行われない | ○ | - | |
SPARC M10、M12 環境において、XSCF SNMP シャットダウンエージェントのテスト状態が TestFailed になる | ○ | - | |
SPARC M10、M12 のゲストドメイン間クラスタ環境において、XSCF SNMP シャットダウンエージェントのテスト状態が TestFailed になる | ○ | - | |
SPARC M10、M12 環境において、SNMP トラップの受信を確認できない | ○ | - | |
SPARC Enterprise M シリーズ環境において、RCI シャットダウンエージェントのテスト状態が TestFailed になる | ○ | - | |
PRIMERGY 環境において、IPMI シャットダウンエージェント (SA_ipmi) の初期状態が InitFailed およびテスト状態が TestFailed になる | - | ○ | |
KVM 環境において、libvirt シャットダウンエージェントのテスト状態が TestFailed になる | - | ○ | |
kdump シャットダウンエージェントの設定時に panicinfo_setup コマンドがエラーになる | - | ○ | |
sdtool -b実行時に、/var/log/messagesに以下のいずれかのメッセージが出力される "systemd: Failed to start PRIMECLUSTER Shutdown Facility for sdtool debug off" | - | ○ |
SF 設定後、シャットダウンエージェントの状態表示画面に以下の状態が表示された。
- Init State が InitFailed
- Test State が TestFailed
/var/adm/messages ファイル (Solaris)、あるいは /var/log/messages ファイル (Linux)、およびコンソールにエラーメッセージが出力されていないか確認してください。
エラーメッセージが出力されている場合(Solaris/Linux)
出力されたメッセージの内容に従い対処してください。対処方法については、"PRIMECLUSTER 活用ガイド<メッセージ集>" を参照してください。
エラーメッセージが出力されていない場合(Solaris)
以下の点を確認してください。
SPARC Enterprise MシリーズまたはPRIMEPOWER 環境の場合、ESF(Enhanced Support Facility) がインストールされているかを以下のコマンドで確認してください。
# pkginfo -l FJSVbse
ESF がインストールされていない場合、「エラー: “FJSVbse” に関する情報が見つかりません。」というメッセージが出力されます。この場合、ESF をインストールしてください。
SPARC Enterprise MシリーズまたはPRIMEPOWER 環境で、RCI シャットダウンエージェントを設定している場合、RCIシャットダウンエージェントが起動されていることを次のコマンドで確認します。
# /etc/opt/FJSVcluster/bin/clrcimonctl
RCI シャットダウンエージェントが起動していない場合、"The devscfd daemon does not exist." というメッセージが出力されます。次のコマンドで RCIシャットダウンエージェントを起動します。
# /etc/opt/FJSVcluster/bin/clrcimonctl start
RCI シャットダウンエージェントが起動したことを次のコマンドで確認します。
# /etc/opt/FJSVcluster/bin/clrcimonctl
PRIMEPOWER 環境で、RCCU シャットダウンエージェントを設定している場合、RCCU シャットダウンエージェントが起動されていることを次のコマンドで確認します。
# /etc/opt/FJSVcluster/bin/clrccumonctl
RCCU シャットダウンエージェントが起動していない場合、"The devrccud daemon does not exist." というメッセージが表示されます。次のコマンドで RCCU シャットダウンエージェントを起動します。
# /etc/opt/FJSVcluster/bin/clrccumonctl start
上記以外の場合は、表示されている画面から[戻る]を選択して、シャットダウン機構を再設定します。
エラーメッセージが出力されていない場合(Linux)
SF の設定を見直してください。詳細は、"PRIMECLUSTER 導入運用手引書" の "シャットダウン機構の設定" を参照してください。
管理LAN上の通信速度に問題がないかを確認してください。
IPMI シャットダウンエージェントを使用している場合、 iRMC またはiRMCに接続されているスイッチの通信速度の設定に誤りがある可能性があります。その場合は、通信速度の設定を見直してください。
(例)通信速度を1000Mbps(固定)からAutoに変更する。
iRMCの設定についてはリモートマネジメントコントローラのユーザーズガイド、スイッチの設定については各機種のユーザーズガイドを参照してください。
以下の条件の時、7042 番のエラーメッセージが出力され、XSCF シャットダウンエージェント(SA_xscfp.so, SA_rccu.so, SA_xscfr.so) のテスト状態が "TestFailed" になることがあります。
1) コンソールに XSCF を使用している場合。かつ、
2) XSCF シャットダウンエージェントを使用するようシャットダウン機構 (SF) の設定を行った場合。
[7042 番のエラーメッセージ]
FJSVcluster: エラー: DEV: 7042: コンソールへの接続ができません。
(node:nodename portno:portnumber detail:code)
以下の手順にて、コンソール情報を変更してください。
全ノードで以下のコマンドを実行し、シャットダウン機構を停止してください。
# /opt/SMAW/bin/sdtool -e
エラーが発生したノードでclrccusetup -a コマンドを実行し、コンソール情報を変更してください。
clrccusetup コマンドの使用法については、"PRIMECLUSTER 活用ガイド<コマンドリファレンス編>" を参照してください。
# /etc/opt/FJSVcluster/bin/clrccusetup -a xscf IP-address user-name
Enter Password:
Re-enter Password:
IP-address には、XSCF の IP アドレスまたは /etc/inet/hosts に登録されている XSCF のホスト名を指定してください。
user-name には、XSCF の制御ポートへログインするためのユーザ名を指定してください。
Password には、XSCF の制御ポートへログインするためのパスワードを入力してください。
全ノードで clrccusetup -l コマンドを実行し、登録されたコンソール情報を確認してください。手順1.で登録したコンソール情報がすべてのノードで出力されない場合、再度 手順2. からやり直してください。
# /etc/opt/FJSVcluster/bin/clrccusetup -l
device-name cluster-host-name IP-address host-name user-name ---------------------------------------------------------------------------- xscf fuji2 10.20.30.40 root ^^^^ ← 特にfuji2のdevice-nameが""xscf""と表示されることを確認してください。 xscf fuji3 10.20.30.41 root ----------------------------------------------------------------------------
全ノードで以下のコマンドを実行し、シャットダウン機構を起動してください。
# /opt/SMAW/bin/sdtool -b
30 秒後に全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作していることを確認してください。
# /opt/SMAW/bin/sdtool -s
Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- fuji2 SA_pprcip.so Idle Unknown TestWorked InitWorked fuji2 SA_xscfp.so Idle Unknown TestWorked InitWorked fuji2 SA_rccu.so Idle Unknown TestWorked InitWorked fuji2 SA_pprcir.so Idle Unknown TestWorked InitWorked fuji2 SA_xscfr.so Idle Unknown TestWorked InitWorked fuji3 SA_pprcip.so Idle Unknown TestWorked InitWorked fuji3 SA_xscfp.so Idle Unknown TestWorked InitWorked fuji3 SA_rccu.so Idle Unknown TestWorked InitWorked fuji3 SA_pprcir.so Idle Unknown TestWorked InitWorked fuji3 SA_xscfr.so Idle Unknown TestWorked InitWorked
※ SA_xscfp.so、SA_rccu.so、SA_xscfr.so の Test State の欄がすべて "TestWorked" であれば OK です。
/etc/opt/SMAW/SMAWsf/rcsd.cfg に記載した myadmnIPx (管理 LAN の IP アドレス、/etc/inet/hosts(Solaris の場合)、または /etc/hosts(Linux の場合)に登録されているホスト名)が誤っている可能性があります。
CFName1,weight=weight1,admIP=myadmnIP1:agent=SA_ppricip,timeout=20...
"PRIMECLUSTER 導入運用手引書" の "シャットダウン機構の設定"を参照して、myadmnIPx を修正してください。
RCI シャットダウンエージェントのタイムアウト値は 20 (秒) に設定してください
RCCU シャットダウンエージェントのタイムアウト値は以下の式に従って決定してください
2 ノードの場合
タイムアウト値 = 25 (秒)
3 ノード以上の場合
タイムアウト値 = 20 + 17×(n - 2) (秒)[n = クラスタの構成ノード数]
全ノードの /etc/opt/SMAW/SMAWsf/rcsd.cfg の以下の下線部分を、すべての行について、算出したタイムアウト値に編集してください。
fuji1,weight=X,admIP=IPaddress:agent=SA_pprcip,timeout=20:agent=SA_rccu,timeout=25:agent=SA_pprcir,timeout=20
注) RCI シャットダウンエージェントは、SA_pprcip, SA_pprcir です。RCCU シャットダウンエージェントは SA_rccu です。
全ノードで以下のコマンドを実行してください。
# sdtool -e # sdtool -b
"PRIMECLUSTER Cluster Foundation 導入運用手引書 4.1" の "8.5.3 タイムアウト値の設定" に従い、各シャットダウンエージェントのタイムアウト値を算出した値に変更してください。
RCCU シャットダウンエージェントの推奨タイムアウト値は 20 秒です。
XSCF シャットダウンエージェントの推奨タイムアウト値は 20 秒です。
XSCF シャットダウンエージェントは SA_xscfp, SA_xscfr です。
参照
詳細は "PRIMECLUSTER 導入運用手引書" の "シャットダウン機構の設定"を参照してください。
マシン管理を使用して、RCI アドレスが正しく設定されているかを確認してください。正しく設定されていない場合、再度 RCI アドレスを変更してください。
正しく設定されている場合、エラーメッセージが出力されたノードで以下のコマンドを実行し、RCI 非同期監視デーモンを復旧してください。
# /etc/opt/FJSVcluster/bin/clrcimonctl restart # sdtool -e
# sdtool -b
4.1A20 パッチ 913381-03 適用以降または 4.1A30 以降では、以下のコマンドを実行する必要はありません。
# /etc/opt/FJSVcluster/bin/clrcimonctl restart
<いいえ>をクリックしてください。
RCI ケーブルを抜いても、シャットダウンエージェントによる強制停止は行われません。
シャットダウンエージェントによる強制停止は、クラスタインタコネクトを抜く等で確認できます。
ps(1) コマンド等により snmptrapd のプロセスの存在を確認してください。デーモンが起動されていない場合は snmptrapd デーモンを起動するように設定を変更してください。
MMB シャットダウンエージェントに登録されたユーザのパスワードが誤っている、または、アカウントに Administrator 権限が付加されていない可能性があります。
MMB シャットダウンエージェントに登録されたユーザのパスワード、および Administrator 権限について確認してください。
MMB シャットダウン機構では Remote Management Control Protocol(RMCP)を使用するため、RMCP が使用できる MMB のアカウント(MMB ユーザ)を clmmbsetup コマンド(-a オプション)で指定する必要があります。
詳細については、以下のマニュアルを参照してください。
PRIMEQUEST 580A/540A/520A/500シリーズ/400シリーズリファレンスマニュアル:基本操作/GUI/コマンド
PRIMEQUEST 1000 シリーズ運用管理ツールリファレンス
PRIMEQUEST 2000 シリーズ運用管理ツールリファレンス
以下に操作例を示します。
Web-UI 画面にログインします。
ナビゲーションバーから "Network" を選択します。
サブメニュー階層表示バーから "Remote Server Management" を選択します。
"Remote Server Management" 画面より、clmmbsetup コマンド(-a オプション)で指定したユーザ名を選択し、[Edit]を押します。
"Password"、"Confirm Password"、および "Privilege" を適宜変更します。
"Status" を「Enabled」に変更し、[Apply]ボタンを押します。
Web-UI 画面をログアウトします。
全ノードで以下のコマンドを実行し、シャットダウン機構(SF)を停止します。
# /opt/SMAW/bin/sdtool -e
全ノードで以下のコマンドを実行し、シャットダウン機構(SF)を起動します。
# /opt/SMAW/bin/sdtool -b
以下の可能性があります。
PSA (PRIMEQUEST Server Agent) / SVmco (ServerView Mission Critical Option) のインストールや設定がされていない
SVmco を手動でインストールしたあとにノードを再起動していない
PSA / SVmco の動作に必要なファイアウォールの設定が行われていない
PSA / SVmco の設定に誤りがある
管理 LAN の IP アドレスに誤った IP アドレス (MMB の IP アドレスなど) を指定している
MMB の設定に誤りがある
誤った IP アドレスが設定されている
仮想 IP アドレスと物理 IP アドレスの両方が設定されていない
原因に応じて以下の対処を行ってください。
PSA / SVmco のインストールや設定がされていない場合
PSA / SVmco のインストールおよび設定をします。
全ノードを再起動します。
全ノードで以下のコマンドを実行し、シャットダウン機構が正常に動作していることを確認します。
# /opt/SMAW/bin/sdtool -s
SVmco を手動でインストールしたあとにノードを再起動していない場合
全ノードを再起動します。
全ノードで以下のコマンドを実行し、シャットダウン機構が正常に動作していることを確認します。
# /opt/SMAW/bin/sdtool -s
PSA / SVmco の動作に必要なファイアウォールの設定が行われていない場合
PSA / SVmco の導入手順に従い、ファイアウォールの設定をします。
全ノードで以下のコマンドを実行し、シャットダウン機構を停止します。
# /opt/SMAW/bin/sdtool -e
全ノードでシャットダウン機構を起動します。
# /opt/SMAW/bin/sdtool -b
全ノードで以下のコマンドを実行し、シャットダウン機構が正常に動作していることを確認します。
# /opt/SMAW/bin/sdtool -s
PSA / SVmco の設定、または MMB の設定に誤りがある場合
PSA / SVmco / MMB の設定を変更します。
全ノードで以下のコマンドを実行し、シャットダウン機構を停止します。
# /opt/SMAW/bin/sdtool -e
設定を変更したノードで以下のコマンドを実行し、MMB 非同期監視デーモンを停止します。
# /etc/opt/FJSVcluster/bin/clmmbmonctl stop
設定を変更したノードで以下のコマンドを実行し、MMB 非同期監視デーモンおよびシャットダウン機構を起動します。
# /etc/opt/FJSVcluster/bin/clmmbmonctl start
# /opt/SMAW/bin/sdtool -b
手順4.のシャットダウン機構の起動が終了したあとに、残りのノードでシャットダウン機構を起動します。
# /opt/SMAW/bin/sdtool -b
全ノードで以下のコマンドを実行し、シャットダウン機構が正常に動作していることを確認します。
# /opt/SMAW/bin/sdtool -s
シャットダウン機構の定期的な状態確認処理において、メッセージに出力されているシャットダウンエージェントがタイムアウトした可能性があります。
以下の手順で対処を行ってください。
/etc/opt/FJSVcllkcd/etc/SA_lkcd.toutのPANICINFO_TIMEOUTの値を以下のように変更してください。
変更前
PANICINFO_TIMEOUT 10
変更後
PANICINFO_TIMEOUT 15
以下のコマンドを実行し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -e
# /opt/SMAW/bin/sdtool -b
以下のコマンドを実行し、各シャットダウンエージェントの "Test State"が "TestWorked" と表示されていることを確認してください。
# /opt/SMAW/bin/sdtool -s
上記の対処を行っても現象が発生する場合は、当社技術員に連絡してください。
クラスタノードからXSCFへ SSH による接続確認が行われていないために、接続先の識別ができず、XSCFへ接続できない可能性があります。
以下の手順でホスト認証を行ったあと、シャットダウン機構を再起動してください。
各ノードから、接続先のすべてのXSCFへSSHでログインできることを確認してください。
初回接続時に、接続先ホストを識別するための情報(フィンガープリント)が表示されますので、"yes"を入力し、XSCFの識別情報をサーバに記録します。
例)XSCFのIPアドレスが 10.20.21.10 の場合
# ssh -l ユーザ名 10.20.21.10
ホスト '10.20.21.10 (10.20.21.10)' の認証を確立できません. RSA 鍵フィンガープリントは af:fq:87:01:0f:6c:6:3f:e6:70:09:aa:85:40:59:97 です 本当に接続を継続してもよろしいですか (yes/no)? yes 警告: 既知ホストのリストに '10.20.21.10' (RSA) を追加しました。 ユーザ名@10.20.21.10 のパスワード: #
全ノードで以下のコマンドを実行し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -e
# /opt/SMAW/bin/sdtool -b
30 秒後に全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作していることを確認してください。
# /opt/SMAW/bin/sdtool -s
Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- node1 SA_pprcip.so Idle Unknown TestWorked InitWorked node1 SA_xscfp.so Idle Unknown TestWorked InitWorked node1 SA_rccu.so Idle Unknown TestWorked InitWorked node1 SA_pprcir.so Idle Unknown TestWorked InitWorked node1 SA_xscfr.so Idle Unknown TestWorked InitWorked node2 SA_pprcip.so Idle Unknown TestWorked InitWorked node2 SA_xscfp.so Idle Unknown TestWorked InitWorked node2 SA_rccu.so Idle Unknown TestWorked InitWorked node2 SA_pprcir.so Idle Unknown TestWorked InitWorked node2 SA_xscfr.so Idle Unknown TestWorked InitWorked
SSHのユーザ認証で、公開鍵認証が使用されている可能性があります。
クラスタノードからXSCFへ接続する場合のユーザ認証方法として公開鍵認証を無効化し、UNIX 標準のパスワードによる認証に変更してください。
その後、以下の手順でシャットダウン機構を再起動してください。
各ノードから、接続先のすべてのXSCFへSSHでログインできることを確認してください。
全ノードで以下のコマンドを実行し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -e
# /opt/SMAW/bin/sdtool -b
30 秒後に全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作していることを確認してください。
# /opt/SMAW/bin/sdtool -s
Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- node1 SA_pprcip.so Idle Unknown TestWorked InitWorked node1 SA_xscfp.so Idle Unknown TestWorked InitWorked node1 SA_rccu.so Idle Unknown TestWorked InitWorked node1 SA_pprcir.so Idle Unknown TestWorked InitWorked node1 SA_xscfr.so Idle Unknown TestWorked InitWorked node2 SA_pprcip.so Idle Unknown TestWorked InitWorked node2 SA_xscfp.so Idle Unknown TestWorked InitWorked node2 SA_rccu.so Idle Unknown TestWorked InitWorked node2 SA_pprcir.so Idle Unknown TestWorked InitWorked node2 SA_xscfr.so Idle Unknown TestWorked InitWorked
DNSサーバの設定に誤りがある可能性があります。
以下の手順で DNS サーバの設定を見直し、シャットダウン機構を再起動してください。
XSCF から DNS サーバへのアクセスが正しく行えるか確認します。
XSCF にログインして、nslookup(8)コマンドによりホスト名( DNS 登録されているものであれば何でも可)のルックアップを行ってください。
手順1.でnslookup(8)コマンドの実行から結果の表示までに20秒以上かかる場合、XSCFのDNSネームサーバ設定が間違っている可能性があるため、以下を確認してください。
コマンドの詳細については、「SPARC Enterprise M4000/M5000/M8000/M9000 サーバ XSCFユーザーズガイド」を参照してください。
setnameserver(8)により指定されているサーバのIPアドレスに誤りがないか
setroute(8)で設定しているルーティング情報に誤りがないか
全ノードで以下のコマンドを実行し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -e
# /opt/SMAW/bin/sdtool -b
30 秒後に全ノードで以下のコマンドを実行し、シャットダウン機構が正しく動作していることを確認してください。
# /opt/SMAW/bin/sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- node1 SA_pprcip.so Idle Unknown TestWorked InitWorked node1 SA_xscfp.so Idle Unknown TestWorked InitWorked node1 SA_rccu.so Idle Unknown TestWorked InitWorked node1 SA_pprcir.so Idle Unknown TestWorked InitWorked node1 SA_xscfr.so Idle Unknown TestWorked InitWorked node2 SA_pprcip.so Idle Unknown TestWorked InitWorked node2 SA_xscfp.so Idle Unknown TestWorked InitWorked node2 SA_rccu.so Idle Unknown TestWorked InitWorked node2 SA_pprcir.so Idle Unknown TestWorked InitWorked node2 SA_xscfr.so Idle Unknown TestWorked InitWorked
VMGuest シャットダウンエージェントに登録された管理OSのユーザ名、ユーザのパスワードまたは、管理LANのIPアドレスが誤っている可能性があります。
VMGuest シャットダウンエージェントに登録された管理OSのユーザ名、ユーザのパスワード、および管理OSの管理LANのIPアドレスについて確認してください。
VMGuest シャットダウン機構ではノードを強制停止できる管理OSのアカウント(FJSVvmSP)、アカウントのパスワード、および、管理LANのIPアドレスをclvmgsetup コマンド(-a オプション)で指定する必要があります。
clvmgsetupコマンドの使用法については、"PRIMECLUSTER 活用ガイド<コマンドリファレンス編>" を参照してください。
以下に操作例を示します。
clvmgsetup -a コマンドを実行し、ゲストOSの情報を登録します。
全ゲストOS(ノード)上で実行してください。
# /etc/opt/FJSVcluster/bin/clvmgsetup -a host-user-name host-IPaddress
Enter User's Password: Re-enter User's Password: #
host-user-name
ゲストOSが属する仮想マシンシステムの管理OSにログインするためのユーザ名
ユーザ名には、FJSVvmSP を指定してください。
host-IPaddress
ゲストOSが属する仮想マシンシステムの管理OSで、MMBに接続された管理LANのIPアドレス
User's Password
ゲストOSが属する仮想マシンシステムの管理OSにログインするためのユーザのパスワード
全ゲストOS(ノード)上でclvmgsetup -l コマンドを実行し、登録されたゲストOS情報を確認します。
手順1.で登録したゲストOSの情報が全ノードで出力されない場合、再度手順1.からやり直してください。
# /etc/opt/FJSVcluster/bin/clvmgsetup -l cluster-host-name host-IPaddress host-user-name domain-name ------------------------------------------------------------ node1 10.10.10.2 FJSVvmSP node1 #
全ゲストOS(ノード)で以下のコマンドを実行し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -e
# /opt/SMAW/bin/sdtool -b
全ゲストOS(ノード)で以下のコマンドを実行し、シャットダウン機構が正しく動作していることを確認してください。
# /opt/SMAW/bin/sdtool -s
Cluster Host Agent SA State Shut State Test State Init State
------------ ----- -------- ---------- ---------- ----------
node1 SA_vmgp Idle Unknown TestWorked InitWorked
node2 SA_vmgp Idle Unknown TestWorked InitWorked
※ Test State の欄がすべて "TestWorked" であることを確認してください。
管理OSに対しての SSH初回時のユーザ問い合わせ(RSA 鍵の生成)が完了してない可能性があります。
VMGuest シャットダウン機構は、管理OSに対してSSHでアクセスするため、SSH初回時のユーザ問い合わせ(RSA 鍵の生成)を済ませておく必要があります。全ゲストOS(ノード)上で、clvmgsetup で登録した管理OSのIPアドレスに対して、 clvmgsetup で登録した管理OSのユーザ名でログインを実行してください。
以下に操作例を示します。
clvmgsetup -l コマンドを実行し、登録されたゲストOS情報を確認します。
# /etc/opt/FJSVcluster/bin/clvmgsetup -l
cluster-host-name host-IPaddress host-user-name domain-name
------------------------------------------------------------
node1 10.10.10.2 FJSVvmSP node1
node2 10.10.10.2 FJSVvmSP node2
#
すべてのノード上から host-IPaddress の欄で表示されているIP アドレスに対してhost-user-name の欄で表示されているアカウントで SSH でログインを実行してください。
# ssh -l FJSVvmSP 10.10.10.2
The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established.
RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx.
Are you sure you want to continue connecting (yes/no)? yes ←yes と入力
#
全ゲストOS(ノード)で以下のコマンドを実行し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -e
# /opt/SMAW/bin/sdtool -b
全ゲストOS(ノード)で以下のコマンドを実行し、シャットダウン機構が正しく動作していることを確認してください。
# /opt/SMAW/bin/sdtool -s
Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- node1 SA_vmgp Idle Unknown TestWorked InitWorked node2 SA_vmgp Idle Unknown TestWorked InitWorked
※ Test State の欄がすべて "TestWorked" であることを確認してください。
SF の既存設定を持つノードと持たないノードが混在する場合、SF ウィザード (GUI) は、正常に動作しないため、特定のノードだけシャットダウンエージェントの設定が行われなかった可能性があります。
対処1、対処2のいずれかを実施してください。
シャットダウンエージェントの設定が行われなかったノードに対して、手動で設定を行ってください。
シャットダウンエージェントの設定方法は、サーバ機種によって異なります。機種に応じて、以下のいずれかを実施してください。
XSCF SNMP シャットダウンエージェントの場合
“PRIMECLUSTER 活用ガイド<コマンドリファレンス編>”の“シャットダウン機構 - clsnmpsetup(1M)”に従い、シャットダウンエージェントの設定を実施してください。
XSCF/ILOM シャットダウンエージェントの場合
“PRIMECLUSTER 活用ガイド<コマンドリファレンス編>”の“シャットダウン機構 - clrccusetup(1M)”に従い、シャットダウンエージェントの設定を実施してください。
ALOM シャットダウンエージェントの場合
“PRIMECLUSTER 活用ガイド<コマンドリファレンス編>”の“シャットダウン機構 - SA_sunF.cfg(4)”に従い、シャットダウンエージェントの設定を実施してください。
全ノードのシャットダウンエージェントの設定を削除後、再度 SF ウィザード (GUI) でシャットダウン機構の設定を実施してください。
シャットダウンエージェントの設定を削除する方法は、サーバ機種によって異なります。機種に応じて、以下のいずれかを実施してください。
XSCF SNMP シャットダウンエージェントの場合
“PRIMECLUSTER 活用ガイド<コマンドリファレンス編>”の“シャットダウン機構 - clsnmpsetup(1M)”に従い、シャットダウンエージェントの設定を削除してください。
XSCF/ILOM シャットダウンエージェントの場合
“PRIMECLUSTER 活用ガイド<コマンドリファレンス編>”の“シャットダウン機構 - clrccusetup(1M)”に従い、シャットダウンエージェントの設定を削除してください。
ALOM シャットダウンエージェントの場合
全ノードで、/etc/opt/SMAW/SMAWsf/SA_sunF.cfg ファイルを削除してください。
以下の 6 種類のシャットダウンエージェントのすべてのテスト状態が TestFailed になる。
SA_xscfsnmpg0p
SA_xscfsnmpg1p
SA_xscfsnmpg0r
SA_xscfsnmpg1r
SA_xscfsnmp0r(制御ドメインでのみ利用)
SA_xscfsnmp1r(制御ドメインでのみ利用)
シャットダウン機構から XSCF へ接続する方法を SSH (デフォルト) にしている場合に、各クラスタノードから XSCF に対して、SSH 初回接続時のユーザ問い合わせ (RSA 鍵の生成) が完了していないことが原因です。
シャットダウン機構から XSCF への接続方法は、clsnmpsetup -l コマンドの "connection-type" 項目で確認できます。
例)
# /etc/opt/FJSVcluster/bin/clsnmpsetup -l device-name cluster-host-name PPAR-ID domain-name IP-address1 IP-address2 user-name connection-type ----------------------------------------------------------------------------------------- xscf fuji2 0 primary XSCF1 XSCF2 user001 ssh xscf fuji3 0 primary XSCF3 XSCF4 user001 ssh
"connection-type" 項目に "ssh" と表示された場合に、各クラスタノードから、すべての XSCF に対して、SSH 初回接続時のユーザ問い合わせ (RSA 鍵の生成) を完了させてください。SSH 初回接続は、clsnmpsetup -l コマンドの出力に合わせ、以下のように実施してください。
# ssh -l user-name項目に表示されるユーザ名 IP-address1項目に表示されるIPアドレスまたはホスト名 The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established. RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx. Are you sure you want to continue connecting (yes/no)? yes ←yes と入力
# ssh -l user-name項目に表示されるユーザ名 IP-address2項目に表示されるIPアドレスまたはホスト名 The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established. RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx. Are you sure you want to continue connecting (yes/no)? yes ←yes と入力
対処後、以下の手順で、シャットダウン機構が正常に動作していることを確認してください。
全ノードで以下のコマンドを実行し、シャットダウン機構を停止します。
# sdtool -e
全ノードで以下のコマンドを実行し、シャットダウン機構を起動します。
# sdtool -b
全ノードで以下のコマンドを実行し、シャットダウンエージェントのテスト状態が TestWorked になることを確認します。
# sdtool -s
シャットダウン機構ウィザードの「■XSCFの設定」(XSCFの情報を入力する画面)において、"XSCF名1" および "XSCF名2" に /etc/inet/hosts に登録されている XSCF名 を入力した場合、/etc/inet/hosts に記載されている XSCF 名の IP アドレスに誤りがあることが原因です。
/etc/inet/hosts に設定された XSCF の IP アドレスが正しいか確認してください。誤りがある場合は、再設定および SSH 初回接続時のユーザ問い合わせ (RSA 鍵の生成) (対処 1 参照) を行った後に、以下の手順でシャットダウン機構の再起動と正常に動作していることの確認をしてください。
全ノードで以下のコマンドを実行し、シャットダウン機構を停止します。
# sdtool -e
全ノードで以下のコマンドを実行し、シャットダウン機構を起動します。
# sdtool -b
全ノードで以下のコマンドを実行し、シャットダウンエージェントのテスト状態が TestWorked になることを確認します。
# sdtool -s
以下の 4 種類のシャットダウンエージェントのすべてのテスト状態が TestFailed になる。
SA_xscfsnmpg0p
SA_xscfsnmpg1p
SA_xscfsnmpg0r
SA_xscfsnmpg1r
シャットダウン機構ウィザードの 「■XSCFの設定」(XSCF の情報を入力する画面) において、ドメイン名に誤りがあることが原因です。初めてシャットダウン機構の設定を行う場合、 XSCF の情報を入力する画面のドメイン名の初期値が、実際のドメイン名と異なる場合があります。そのため、異なっている場合は、正しく入力し、次の画面へ進む必要があります。
事前にゲストドメイン上で virtinfo -a コマンドを実行し、Domain name に表示されるドメイン名を確認してください。
例)
# virtinfo -a Domain role: LDoms guest Domain name: domain1 Domain UUID: xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx Control domain: m10-1 Chassis serial#: XX00000000
Cluster Admin 画面の CF メインウィンドウで、[ツール] メニューの [シャットダウン機構]-[設定ウィザード] を選択してシャットダウン構成ウィザードを起動し、確認したドメイン名を再設定してください。
シャットダウン機構の設定時に行う SNMP トラップの受信確認において、XSCF から擬似エラー通知トラップを送信しても、各クラスタノードで擬似エラー通知トラップが出力されない。
参照
SNMP トラップ受信確認については、"PRIMECLUSTER 導入運用手引書 (Oracle Solaris)" の "シャットダウン構成ウィザードによる設定" の "■SNMPトラップの受信確認" を参照してください。
XSCF で行う SNMP エージェントの設定に誤りがあることが原因です。トラップ送信先にはクラスタノードの IP アドレスを設定する必要がありますが、クラスタノード以外の IP アドレスが設定されていないか、 XSCF で showsnmp コマンドを実行し、Hostname に出力される IP アドレスを確認してください。
例)
XSCF> showsnmp Agent Status: Enabled Agent Port: 161 System Location: Unknown System Contact: Unknown System Description: Unknown Trap Hosts: Hostname Port Type Community String Username Auth Encrypt -------- ---- ---- ---------------- -------- ---- ------- XXX.XXX.XXX.XXX 9385 v2 FJSVcldev n/a n/a n/a XXX.XXX.XXX.XXX 9385 v2 FJSVcldev n/a n/a n/a XXX.XXX.XXX.XXX 9385 v2 FJSVcldev n/a n/a n/a XXX.XXX.XXX.XXX 9385 v2 FJSVcldev n/a n/a n/a SNMP V1/V2c: None Enabled MIB Modules: SP MIB XSCF>
SNMP エージェントの設定に誤りがある場合は、すべての XSCF で以下の手順を実行し、トラップ送信先の IP アドレスを変更してください。
4.3A20の場合
XSCF> setsnmp remtraphost -t v2 [誤った管理LANのIPアドレス] XSCF> setsnmp remtraphost -t v2 [誤った非同期監視サブLANのIPアドレス] XSCF> setsnmp addtraphost -t v2 -s FJSVcldev [クラスタノードの管理LANのIPアドレス] XSCF> setsnmp addtraphost -t v2 -s FJSVcldev [クラスタノードの非同期監視サブLANのIPアドレス]
4.3A40以降の場合
XSCF> setsnmp remtraphost -t v2 -s FJSVcldev -p 9385 [誤った管理LANのIPアドレス] XSCF> setsnmp remtraphost -t v2 -s FJSVcldev -p 9385 [誤った非同期監視サブLANのIPアドレス] XSCF> setsnmp addtraphost -t v2 -s FJSVcldev -p 9385 [クラスタノードの管理LANのIPアドレス] XSCF> setsnmp addtraphost -t v2 -s FJSVcldev -p 9385 [クラスタノードの非同期監視サブLANのIPアドレス]
以下の 2 種類のシャットダウンエージェントのすべてのテスト状態が TestFailed になる。
SA_pprcip
SA_pprcir
/etc/system ファイルにカーネルパラメタ (scfd:scf_rdctrl_sense_wait) の設定が行われていない、または設定に誤りがあることが原因です。
/etc/system ファイルに正しくカーネルパラメタを設定してください。詳細は、PRIMECLUSTER 4.5の場合、"PRIMECLUSTER 導入運用手引書 (Oracle Solaris)"の"カーネルパラメタの確認/設定"、PRIMECLUSTER 4.3以前の場合、"PRIMECLUSTER 導入運用手引書 (Oracle Solaris)" の "カーネルパラメタ・ワークシート"の"CF構成の場合" の "■RCI非同期監視を行う場合" を参照してください。
カーネルパラメタ設定後は、リブートを行い、以下のコマンドを実行して、シャットダウンエージェントのテスト状態が TestWorked になることを確認します。
# sdtool -s
PRIMECLUSTER のバージョンが 4.3A30 以降で、シャットダウン機構の設定ファイル (/etc/opt/SMAW/SMAWsf/SA_ipmi.cfg) に記載されたシャットダウン機構用のユーザのパスワードが、暗号化されていないことが原因です。
以下の手順で、再度、シャットダウン機構の設定を行ってください。
全ノードで以下のコマンドを実行し、シャットダウン機構を停止します。
# sdtool -e
いずれかのノードでパスワードを暗号化します。
# /opt/SMAW/SMAWsf/bin/sfcipher -c Enter Password: Re-Enter Password: D0860AB04E1B8FA3
全ノードで/etc/opt/SMAW/SMAWsf/SA_ipmi.cfg に、暗号化したパスワードを記載します。
いずれかのノードで以下のコマンドを実行し、構成定義ファイルの変更内容を反映します。
# /etc/opt/FJSVcllkcd/bin/panicinfo_setup
以下のメッセージが出力されるので、“I” を選択します。
panicinfo_setup: WARNING: /etc/panicinfo.conf file already exists.
(I)nitialize, (C)opy or (Q)uit (I/C/Q) ? I ← Iと入力
全ノードで以下のコマンドを実行し、シャットダウン機構を起動します。
# sdtool -b
全ノードで以下のコマンドを実行し、シャットダウンエージェントのテスト状態が TestWorked になることを確認します。
# sdtool -s
以下の 2 種類のシャットダウンエージェントのすべてのテスト状態が TestFailed になる。
SA_libvirtgp
SA_libvirtgr
各クラスタノード (ゲストOS) から管理 OS に対して、SSH 初回接続時のユーザ問い合わせ (RSA 鍵の生成) が完了していないことが原因です。
各クラスタノード (ゲストOS) から、すべての管理 OS に対して、SSH 初回接続時のユーザ問い合わせ (RSA 鍵の生成) を完了させてください。
詳細は、"PRIMECLUSTER 導入運用手引書 (Linux)" の "libvirt" の手順の "3." を参照してください。
以下の手順で、SSH 初回接続時のユーザ問い合わせ (RSA 鍵の生成) とシャットダウン機構が正常に動作していることの確認をしてください。
SSH 初回接続時のユーザ問い合わせ (RSA 鍵の生成)
全ゲストOS(ノード)上でそれぞれ、シャットダウンエージェントの設定でSA_libvirtgp.cfg、SA_libvirtgr.cfgに設定したすべての管理OSのIP アドレス (ip-address) に対して、シャットダウン機構用のユーザでログインを実行してください。
# ssh -l user XXX.XXX.XXX.XXX
The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established. RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx. Are you sure you want to continue connecting (yes/no)? yes ←yes と入力
userは、シャットダウン機構用のユーザ
XXX.XXX.XXX.XXXは、シャットダウンエージェントの設定で設定した管理 OS の IP アドレス (ip-address)
全ノードで以下のコマンドを実行し、シャットダウン機構を停止します。
# sdtool -e
全ノードで以下のコマンドを実行し、シャットダウン機構を起動します。
# sdtool -b
全ノードで以下のコマンドを実行し、シャットダウンエージェントのテスト状態が TestWorked になることを確認します。
# sdtool -s
panicinfo_setup コマンドを実行した場合に、以下のエラーメッセージが出力される。
panicinfo_setup: ERROR: Reading the Shutdown Facility configuration faild.
以下のシャットダウン機構の設定ファイルの記載に誤りがあることが原因です。
BMC、または iRMC が搭載されているサーバの場合
/etc/opt/SMAW/SMAWsf/rcsd.cfg
/etc/opt/SMAW/SMAWsf/SA_ipmi.cfg
ブレードサーバの場合
/etc/opt/SMAW/SMAWsf/rcsd.cfg
/etc/opt/SMAW/SMAWsf/SA_blade.cfg
シャットダウン機構の設定ファイルの記載を見直してください。詳細は、"PRIMECLUSTER 導入運用手引書 (Linux)" の "シャットダウン機構の設定" を参照してください。
特に、設定ファイルの最初のフィールドには、CF ノード名を設定する必要がありますので、CF ノード名が設定されているか確認してください。CF ノード名は、cftool -n コマンドで確認できます。"Node" 項目に表示されるものが CF ノード名です。
例)
# cftool -n Node Number State Os Cpu fuji2 1 UP Linux EM64T fuji3 2 UP Linux EM64T
短時間に連続して、シャットダウン機構の停止と起動を行った場合、シャットダウン機構の再起動処理が同時に実施され、上記メッセージが出力されることがあります。
シャットダウン機構は正常に起動するため、問題ありません。
対処は不要です。