PRIMECLUSTER 活用ガイド <トラブルシューティング編> (Solaris(TM)オペレーティングシステム/Linux版) |
目次
索引
![]() ![]() |
第1部 事象別トラブル | > 第1章 インストール・環境構築時のトラブル |
SF 設定時のトラブル対処方法です。対象バージョンは、4.1 以降です。
No. |
現象 |
Solaris |
Linux |
---|---|---|---|
シャットダウンエージェントの状態表示画面に "InitFailed"、"TestFailed" が表示される |
○ |
○ |
|
Shutdown Facility の設定を実施したが、待機系の XSCF 関連の状態のみ "TestFailed" となる |
○ |
- |
|
SF 設定後、SF デーモン (rcsd) を起動させたが、コンソールにメッセージが表示され、SF デーモンの起動に失敗する |
○ |
○ |
|
各シャットダウンエージェントのタイムアウト値の推奨値と設定方法がわからない |
○ |
○ |
|
RCI アドレスを変更してノードを起動したらエラーメッセージが出力された |
○ |
- |
|
シャットダウン構成ウィザードで、「詳細な設定」から「編集」を選択し、<次へ>をクリックしたら、以下のメッセージがポップアップされた |
○ |
- |
|
シャットダウンエージェントとして、RCI パニック (SA_pprcip) と RCI リセット (SA_pprcir) を設定し、RCI ケーブルを抜いたが、強制停止 (カーネルパニック) が発生しない |
○ |
- |
|
MMB シャットダウンエージェントの設定後、シャットダウンエージェントの状態表示画面に "TestFailed" が表示される |
- |
○ |
|
IPMIシャットダウンエージェントを使用している場合、/var/log/messagesに以下のメッセージが出力される The SA <Shutdown Agent> to test host <nodename> has exceeded its configured timeout, <Process ID> will be terminated |
- |
○ |
|
SPARC Enterprise M4000,M5000,M8000,M9000で、シャットダウン機構の設定を行ったところ 7042 番のエラーメッセージが出力され、 XSCF シャットダウンエージェント (SA_xscfp.so, SA_rccu.so, SA_xscfr.so) のテスト状態(Test State)が TestFailedになった |
○ |
- |
|
VMGuest シャットダウンエージェントの設定後、シャットダウンエージェントの状態表示画面に "TestFailed" が表示される |
- |
○ |
SF 設定後、シャットダウンエージェントの状態表示画面に以下の状態が表示された。
- Init State が InitFailed
- Test State が TestFailed (赤字)
/var/adm/messages ファイル (Solaris)、あるいは /var/log/messages ファイル (Linux)、およびコンソールにエラーメッセージが出力されていないか確認してください。
出力されたメッセージの内容に従い対処してください。対処方法については、"PRIMECLUSTER 活用ガイド<メッセージ集>" を参照してください。
以下の点を確認してください。
# pkginfo -l FJSVbse
ESF がインストールされていない場合、「エラー: "FJSVbse" に関する情報が見つかりません。」というメッセージが出力されます。この場合、ESF をインストールしてください。
# /etc/opt/FJSVcluster/bin/clrcimonctl
RCI シャットダウンエージェントが起動していない場合、"The devscfd daemon does not exist." というメッセージが出力されます。次のコマンドで RCIシャットダウンエージェントを起動します。
# /etc/opt/FJSVcluster/bin/clrcimonctl start
RCI シャットダウンエージェントが起動したことを次のコマンドで確認します。
# /etc/opt/FJSVcluster/bin/clrcimonctl
# /etc/opt/FJSVcluster/bin/clrccumonctl
RCCU シャットダウンエージェントが起動していない場合、"The devrccud daemon does not exist." というメッセージが表示されます。次のコマンドで RCCU シャットダウンエージェントを起動します。
# /etc/opt/FJSVcluster/bin/clrccumonctl start
SF の設定を見直してください。詳細は、"PRIMECLUSTER 導入運用手引書" の "5.1.2 シャットダウン機構の設定" を参照してください。
管理LAN上の通信速度に問題がないかを確認してください。
IPMI シャットダウンエージェントを使用している場合、 iRMC またはiRMCに接続されているスイッチの通信速度の設定に誤りがある可能性があります。その場合は、通信速度の設定を見直してください。
(例)通信速度を1000Mbps(固定)からAutoに変更する。
iRMCの設定についてはリモートマネジメントコントローラのユーザーズガイド、スイッチの設定については各機種のユーザーズガイドを参照してください。
以下の条件の時、7042 番のエラーメッセージが出力され、XSCF シャットダウンエージェント(SA_xscfp.so, SA_rccu.so, SA_xscfr.so) のテスト状態が "TestFailed" になることがあります。
1) PRIMEPOWER 250,450 を使用している場合。かつ、
2) コンソールに XSCF を使用している場合。かつ、
3) XSCF シャットダウンエージェントを使用するようシャットダウン機構 (SF) の設定を行った場合。
[7042 番のエラーメッセージ]
FJSVcluster: エラー: DEV: 7042: コンソールへの接続ができません。
(node:sa01721 portno:8010 detail:-1)
以下の手順にて、コンソール情報を変更してください。
clrccusetup コマンドの使用法については、"PRIMECLUSTER 活用ガイド<コマンドリファレンス編>" を参照してください。
# /etc/opt/FJSVcluster/bin/clrccusetup -a xscf IP-address user-name
Enter Password:
Re-enter Password:
# /etc/opt/FJSVcluster/bin/clrccusetup -l
device-name cluster-host-name IP-address host-name user-name ---------------------------------------------------------------------------- xscf sa01721 SA01721.cmw.co.jp root ^^^^ ← 特にsa01721のdevice-nameが""xscf""と表示されることを確認してください。 xscf sa01722 SA01722.cmw.co.jp root ----------------------------------------------------------------------------
# /opt/SMAW/bin/sdtool -e
# /opt/SMAW/bin/sdtool -b
# /opt/SMAW/bin/sdtool -s
Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- sa01721 SA_pprcip.so Idle Unknown Unknown InitFailed sa01721 SA_xscfp.so Idle Unknown TestWorked InitWorked sa01721 SA_rccu.so Idle Unknown TestWorked InitWorked sa01721 SA_pprcir.so Idle Unknown Unknown InitFailed sa01721 SA_xscfr.so Idle Unknown TestWorked InitWorked sa01722 SA_pprcip.so Idle Unknown Unknown InitFailed sa01722 SA_xscfp.so Idle Unknown TestWorked InitWorked sa01722 SA_rccu.so Idle Unknown TestWorked InitWorked sa01722 SA_pprcir.so Idle Unknown Unknown InitFailed sa01722 SA_xscfr.so Idle Unknown TestWorked InitWorked
※ SA_xscfp.so、SA_rccu.so、SA_xscfr.so の Test State の欄がすべて "TestWorked" であれば OK です。
/etc/opt/SMAW/SMAWsf/rcsd.cfg に記載した myadmnIPx (管理 LAN の IP アドレス、/etc/inet/hosts(Solaris の場合)、または /etc/hosts(Linux の場合)に登録されているホスト名)が誤っている可能性があります。
CFName1,weight=weight1,admIP=myadmnIP1:agent=SA_ppricip,timeout=20...
以下のマニュアルを参照して、myadmnIPx を修正してください。
■Solaris/Linux
"PRIMECLUSTER 導入運用手引書" の "5.1.2 シャットダウン機構の設定"
タイムアウト値 = 25 (秒)
タイムアウト値 = 20 + 17×(n - 2) (秒)[n = クラスタの構成ノード数]
【4.1 の場合】
fuji1,weight=X,admIP=IPaddress:agent=SA_pprcip,timeout=20:agent=SA_rccu,timeout=25:agent=SA_pprcir,timeout=20
注) RCI シャットダウンエージェントは、SA_pprcip, SA_pprcir です。RCCU シャットダウンエージェントは SA_rccu です。
# sdtool -e # sdtool -b
【4.1A10 以降の場合】
"PRIMECLUSTER Cluster Foundation 導入運用手引書 4.1" の "8.5.3 タイムアウト値の設定" に従い、各シャットダウンエージェントのタイムアウト値を算出した値に変更してください。
【4.1A20 以降の場合】
RCCU シャットダウンエージェントの推奨タイムアウト値は 20 秒です。
XSCF シャットダウンエージェントの推奨タイムアウト値は 20 秒です。
XSCF シャットダウンエージェントは SA_xscfp, SA_xscfr です。
Solaris の 4.1A20 以降の場合、詳細は "PRIMECLUSTER 導入運用手引書" の "5.1.2.3 タイムアウト値の設定" を参照してください。
Linux の場合、詳細は "PRIMECLUSTER 導入運用手引書" の "5.1.2 シャットダウン機構の設定" または "5.1.2.3.1 MMBシャットダウン機構の設定" を参照してください。
マシン管理を使用して、RCI アドレスが正しく設定されているかを確認してください。正しく設定されていない場合、再度 RCI アドレスを変更してください。
正しく設定されている場合、エラーメッセージが出力されたノードで以下のコマンドを実行し、RCI 非同期監視デーモンを復旧してください。
# /etc/opt/FJSVcluster/bin/clrcimonctl restart # sdtool -e # sdtool -b
4.1A20 パッチ 913381-03 適用以降または 4.1A30 以降では、以下のコマンドを実行する必要はありません。
# /etc/opt/FJSVcluster/bin/clrcimonctl restart
<いいえ>をクリックしてください。
RCI ケーブルを抜いても、シャットダウンエージェントによる強制停止は行われません。
シャットダウンエージェントによる強制停止は、クラスタインタコネクトを抜く等で確認できます。
snmptrapd デーモンが起動していない可能性があります。
ps(1) コマンド等により snmptrapd のプロセスの存在を確認してください。デーモンが起動されていない場合は snmptrapd デーモンを起動するように設定を変更してください。
MMB シャットダウンエージェントに登録されたユーザのパスワードが誤っている、または、アカウントに Administrator 権限が付加されていない可能性があります。
MMB シャットダウンエージェントに登録されたユーザのパスワード、および Administrator 権限について確認してください。
MMB シャットダウン機構では Remote Management Control Protocol(RMCP)を使用するため、RMCP が使用できる MMB のアカウント(MMB ユーザ)を clmmbsetup コマンド(-a オプション)で指定する必要があります。
詳細については "PRIMEQUEST 480/440 リファレンスマニュアル: GUI/ コマンド" を参照してください。
以下に操作例を示します。
# /opt/SMAW/bin/sdtool -e
# /opt/SMAW/bin/sdtool -b
シャットダウン機構の定期的な状態確認処理において、メッセージに出力されているシャットダウンエージェントがタイムアウトした可能性があります。
以下の手順で対処を行ってください。
変更前
PANICINFO_TIMEOUT 10
変更後
PANICINFO_TIMEOUT 15
# /opt/SMAW/bin/sdtool -e # /opt/SMAW/bin/sdtool -b
# /opt/SMAW/bin/sdtool -s
上記の対処を行っても現象が発生する場合は、当社技術員に連絡してください。
クラスタノードからXSCFへ SSH による接続確認が行われていないために、接続先の識別ができず、XSCFへ接続できない可能性があります。
以下の手順でホスト認証を行ったあと、シャットダウン機構を再起動してください。
初回接続時に、接続先ホストを識別するための情報(フィンガープリント)が表示されますので、"yes"を入力し、XSCFの識別情報をサーバに記録します。
例)XSCFのIPアドレスが 10.20.21.10 の場合
# ssh -l ユーザ名 10.20.21.10 ホスト '10.20.21.10 (10.20.21.10)' の認証を確立できません. RSA 鍵フィンガープリントは af:fq:87:01:0f:6c:6:3f:e6:70:09:aa:85:40:59:97 です 本当に接続を継続してもよろしいですか (yes/no)? yes 警告: 既知ホストのリストに '10.20.21.10' (RSA) を追加しました。 ユーザ名@10.20.21.10 のパスワード: #
# /opt/SMAW/bin/sdtool -e # /opt/SMAW/bin/sdtool -b
# /opt/SMAW/bin/sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- sa01721 SA_pprcip.so Idle Unknown TestWorked InitWorked sa01721 SA_xscfp.so Idle Unknown TestWorked InitWorked sa01721 SA_rccu.so Idle Unknown TestWorked InitWorked sa01721 SA_pprcir.so Idle Unknown TestWorked InitWorked sa01721 SA_xscfr.so Idle Unknown TestWorked InitWorked sa01722 SA_pprcip.so Idle Unknown TestWorked InitWorked sa01722 SA_xscfp.so Idle Unknown TestWorked InitWorked sa01722 SA_rccu.so Idle Unknown TestWorked InitWorked sa01722 SA_pprcir.so Idle Unknown TestWorked InitWorked sa01722 SA_xscfr.so Idle Unknown TestWorked InitWorked
SSHのユーザ認証で、公開鍵認証が使用されている可能性があります。
クラスタノードからXSCFへ接続する場合のユーザ認証方法として公開鍵認証を無効化し、UNIX 標準のパスワードによる認証に変更してください。
その後、以下の手順でシャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -e # /opt/SMAW/bin/sdtool -b
# /opt/SMAW/bin/sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- sa01721 SA_pprcip.so Idle Unknown TestWorked InitWorked sa01721 SA_xscfp.so Idle Unknown TestWorked InitWorked sa01721 SA_rccu.so Idle Unknown TestWorked InitWorked sa01721 SA_pprcir.so Idle Unknown TestWorked InitWorked sa01721 SA_xscfr.so Idle Unknown TestWorked InitWorked sa01722 SA_pprcip.so Idle Unknown TestWorked InitWorked sa01722 SA_xscfp.so Idle Unknown TestWorked InitWorked sa01722 SA_rccu.so Idle Unknown TestWorked InitWorked sa01722 SA_pprcir.so Idle Unknown TestWorked InitWorked sa01722 SA_xscfr.so Idle Unknown TestWorked InitWorked
DNSサーバの設定に誤りがある可能性があります。
以下の手順で DNS サーバの設定を見直し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -e # /opt/SMAW/bin/sdtool -b
# /opt/SMAW/bin/sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- sa01721 SA_pprcip.so Idle Unknown TestWorked InitWorked sa01721 SA_xscfp.so Idle Unknown TestWorked InitWorked sa01721 SA_rccu.so Idle Unknown TestWorked InitWorked sa01721 SA_pprcir.so Idle Unknown TestWorked InitWorked sa01721 SA_xscfr.so Idle Unknown TestWorked InitWorked sa01722 SA_pprcip.so Idle Unknown TestWorked InitWorked sa01722 SA_xscfp.so Idle Unknown TestWorked InitWorked sa01722 SA_rccu.so Idle Unknown TestWorked InitWorked sa01722 SA_pprcir.so Idle Unknown TestWorked InitWorked sa01722 SA_xscfr.so Idle Unknown TestWorked InitWorked
VMGuest シャットダウンエージェントに登録された管理OSのユーザ名、ユーザのパスワードまたは、管理LANのIPアドレスが誤っている可能性があります。
VMGuest シャットダウンエージェントに登録された管理OSのユーザ名、ユーザのパスワード、および管理OSの管理LANのIPアドレスについて確認してください。
VMGuest シャットダウン機構ではノードを強制停止できる管理OSのアカウント(FJSVvmSP)、アカウントのパスワード、および、管理LANのIPアドレスをclvmgsetup コマンド(-a オプション)で指定する必要があります。
clvmgsetupコマンドの使用法については、"PRIMECLUSTER 活用ガイド<コマンドリファレンス編>" を参照してください。
以下に操作例を示します。
全ゲストOS(ノード)上で実行してください。
# /etc/opt/FJSVcluster/bin/clvmgsetup -a host-user-name host-IPaddress Enter User's Password: Re-enter User's Password: #
ゲストOSが属する仮想マシンシステムの管理OSにログインするためのユーザ名
ユーザ名には、FJSVvmSP を指定してください。
ゲストOSが属する仮想マシンシステムの管理OSで、MMBに接続された管理LANのIPアドレス
ゲストOSが属する仮想マシンシステムの管理OSにログインするためのユーザのパスワード
手順1.で登録したゲストOSの情報が全ノードで出力されない場合、再度手順1.からやり直してください。
# /etc/opt/FJSVcluster/bin/clvmgsetup -l cluster-host-name host-IPaddress host-user-name domain-name ------------------------------------------------------------ node1 10.10.10.2 FJSVvmSP node1 #
# /opt/SMAW/bin/sdtool -e # /opt/SMAW/bin/sdtool -b
# /opt/SMAW/bin/sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- node1 SA_vmgp Idle Unknown TestWorked InitWorked node2 SA_vmgp Idle Unknown TestWorked InitWorked
※ Test State の欄がすべて "TestWorked" であることを確認してください。
管理OSに対しての SSH初回時のユーザ問い合わせ(RSA 鍵の生成)が完了してない可能性があります。
VMGuest シャットダウン機構は、管理OSに対してSSHでアクセスするため、SSH初回時のユーザ問い合わせ(RSA 鍵の生成)を済ませておく必要があります。全ゲストOS(ノード)上で、clvmgsetup で登録した管理OSのIPアドレスに対して、 clvmgsetup で登録した管理OSのユーザ名でログインを実行してください。
以下に操作例を示します。
# /etc/opt/FJSVcluster/bin/clvmgsetup -l cluster-host-name host-IPaddress host-user-name domain-name ------------------------------------------------------------ node1 10.10.10.2 FJSVvmSP node1 node2 10.10.10.2 FJSVvmSP node2 #
# ssh -l FJSVvmSP 10.10.10.2 The authenticity of host 'XXX.XXX.XXX.XXX (XXX.XXX.XXX.XXX)' can't be established. RSA key fingerprint is xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx:xx. Are you sure you want to continue connecting (yes/no)? yes ←yes と入力 #
# /opt/SMAW/bin/sdtool -e # /opt/SMAW/bin/sdtool -b
# /opt/SMAW/bin/sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------ ----- -------- ---------- ---------- ---------- node1 SA_vmgp Idle Unknown TestWorked InitWorked node2 SA_vmgp Idle Unknown TestWorked InitWorked
※ Test State の欄がすべて "TestWorked" であることを確認してください。
目次
索引
![]() ![]() |