ここでは、シャットダウン構成ウィザード、あるいはCLIを使用してシャットダウン機構を設定する手順について説明します。
シャットダウン機構の設定手順は、機種により異なります。ハードウェアの機種を確認して適切なシャットダウンエージェントを設定してください。
以下に機種により必要なシャットダウンエージェントを示します。
サーバ機種名 | RCI | XSCF | RCCU | ALOM | ILOM | |||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|
Panic | Reset | Panic | Reset | Console | Console | Console | Panic | Reset | ||||
PRIME | 200 | ○ | ○ | × | × | × | ○ | × | × | × | ||
250 | XSCF | ○ | ○ | ○ | ○ | ○ | × | × | × | × | ||
RCCU | ○ | ○ | × | × | × | ○ | × | × | × | |||
650 | ○ | ○ | × | × | × | ○ | × | × | × | |||
800 | ○ | ○ | × | × | × | × | × | × | × | |||
900 | ○ | ○ | × | × | × | × | × | × | × | |||
1000 | ○ | ○ | × | × | × | × | × | × | × | |||
1500 | ○ | ○ | × | × | × | × | × | × | × | |||
SPARC | M3000 | 日本 | 富士通 | ○ | ○ | ○ | ○ | ○ | × | × | × | × |
他社提供 | × | × | ○ | ○ | ○ | × | × | × | × | |||
日本以外 | × | × | ○ | ○ | ○ | × | × | × | × | |||
T1000 | × | × | × | × | × | × | ○ | × | × | |||
T5120 | × | × | × | × | × | × | × | ○ | ○ | |||
SPARC | T3シリーズ | × | × | × | × | × | × | × | ○ | ○ | ||
S-Series | × | × | × | × | × | ○ | × | × | × |
(*1) コンソールにXSCFを使用している場合
(*2) コンソールにRCCUを使用している場合
(*3) シャットダウン機構ウィザードでは設定できません。CLIを使用して設定します。
(*4) ILOM Resetを使用する場合、PRIMECLUSTERのパッチ(914468-07以降)を適用する必要があります。
(*5) ILOM Resetを使用する場合、SPARC Enterprise本体装置用ファームウェアのSystem Firmware 7.1.6.d以降が必要です。
(*6) 日本国内で他社が提供したSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合、PRIMECLUSTERのパッチ(914468-05以降)を適用する必要があります。
(*7) 日本以外で富士通・Oracle両社のロゴを配した筐体のSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合、PRIMECLUSTERのパッチ(914468-07以降)を適用する必要があります。
注意
以下のいずれかのシャットダウンエージェントを使用して、シャットダウン機構を動作させている際は、コンソールを使用しないでください。
XSCF Panic
XSCF Reset
XSCF Console Break
RCCU Console Break
ILOM Panic
ILOM Reset
やむを得ずコンソールを使用する場合は、事前に全ノードのシャットダウン機構を停止させてください。コンソールの使用後、コンソールの接続を切断してから、全ノードのシャットダウン機構を起動し、状態が正常であることを確認してください。シャットダウン機構の停止、起動、状態確認については、“PRIMECLUSTER 活用ガイド<コマンドリファレンス編>”の sdtool(1M) を参照してください。
/etc/inet/hostsファイルには、シャットダウン機構で使用する管理LANのIPアドレスとホスト名を、全ノード分記載する必要があります。全ノードのIPアドレスとホスト名が記載されていることを確認してください。
RCI非同期監視を行う場合、SCF/RCI経由での監視タイムアウト時間(カーネルパラメタ)を/etc/system に設定する必要があります。サーバ機種によりカーネルパラメタが異なるため、サーバ機種を確認して適切な監視タイムアウト時間を設定してください。
シャットダウン機構で使用する管理LANをGLSで二重化する場合は、NIC切替方式の物理IPアドレス引継ぎ機能を使用してください。
参照
シャットダウン機構と非同期監視の機能の詳細は、以下のマニュアルを参照してください。
“PRIMECLUSTER コンセプトガイド”の“3.3.1.8 PRIMECLUSTER SF”
“PRIMECLUSTER Cluster Foundation 導入運用手引書”の“8 シャットダウン機構”
使用するコンソールは、機種により異なります。ハードウェアの機種を確認してコンソール情報を設定してください。
PRIMEPOWER 250、450 の場合:
RCCU または XSCF
PRIMEPOWER 200、400、600、650、850 の場合:
RCCU
S-Series の場合:
RCCU
注意
コンソール情報の確認は、クラスタの初期設定前に実施してください。
RCCU または XSCFのIPアドレスは、管理LANと同一セグメントにしてください。
■RCCUの確認
コンソールにRCCUを使用している場合は、RCCUに関する以下の情報をメモしてください。なお、工場出荷状態のまま使用する場合は、メモする必要はありません。
RCCUのIPアドレスまたは/etc/inet/hostsに登録されているRCCUのホスト名
制御ポートへログインするためのユーザ名
制御ポートへログインするためのパスワード
制御ポートへスーパーユーザ権限でログインするためのパスワード
参照
RCCUの設定方法、確認方法については、RCCUに添付の取扱説明書を参照してください。
■XSCFの確認
シャットダウン機構の設定をする前に、XSCF に関する以下の設定を確認してください。
XSCF において、外部からの接続許可プロトコル種別で telnet が有効になっていること
シャットダウン機構用にログインユーザアカウントが作成され、グループID がrootになっていること
注意
XSCF への接続がシリアルポート接続のみの場合、シャットダウン機構ではサポートされません。XSCF-LAN を使用してください。
また、XSCFに関する以下の情報をメモしてください。
XSCF のIPアドレス(*1) 、または、ノードの/etc/inet/hostsに登録されているXSCFのホスト名
XSCF においての、シャットダウン機構用のログインユーザアカウントとパスワード
*1) ネットワークルーティングが設定されている場合は、XSCF の IP アドレスがクラスタノードの管理 LAN と同一セグメントである必要はありません。
参照
XSCFの設定方法、確認方法については、“XSCFユーザーズガイド”を参照してください。
シャットダウン機構の設定手順は、機種により異なります。ハードウェアの機種を確認して適切なシャットダウンエージェントを設定してください。
PRIMEPOWER 250、450 の場合:
RCI Panic
XSCF Panic
Console Break
RCI Reset
XSCF Reset
PRIMEPOWER 200、400、600、650、850 の場合:
RCI Panic
Console Break
RCI Reset
PRIMEPOWER 800、900、1000、1500、2000、2500 の場合:
RCI Panic
RCI Reset
S-Series の場合:
Console Break
■シャットダウン構成ウィザードの起動
Cluster Admin 画面のCFメインウィンドウで、[ツール]メニューの [シャットダウン機構]-[設定ウィザード] を選択してシャットダウン構成ウィザードを起動します。
参考
シャットダウン機能の設定は、CFウィザードでCF構成の設定を完了したあと、続けて行うこともできます。
以下の確認ポップアップ画面が表示されるので、<はい>をクリックすると、シャットダウン構成ウィザードが起動します。
■設定方法の選択
シャットダウン機構の設定方法は、以下の2種類を選択することができます。
簡単な設定(推奨)
詳細な設定
ここでは、「簡単な設定(推奨)」を使用した設定について説明します。この方法では、推奨されているPRIMECLUSTERのシャットダウン機構の構成を流れに沿って設定できます。
図5.1 設定方法の選択
「簡単な設定(推奨)」 を選択して、<次へ>をクリックします。
■シャットダウンエージェントの選択
ハードウェアの機種を確認して適切なシャットダウンエージェントを選択します。
図5.2 シャットダウンエージェントの選択
「SCON を使用しない設定」を選択します。
次に、ハードウェアの機種に応じて以下のシャットダウンエージェントを全て選択します。
PRIMEPOWER 250、450 の場合:
RCI Panic
XSCF Panic
Console Break
RCI Reset
XSCF Reset
※ [Console Break]を選択すると、Console BreakエージェントとしてRCCU または XSCF を選択できます。RCCUを選択する場合は、事前にRCCU装置の設定が必要です。
PRIMEPOWER 200、400、600、650、850 の場合:
RCI Panic
Console Break
RCI Reset
PRIMEPOWER 800、900、1000、1500、2000、2500 の場合:
RCI Panic
RCI Reset
S-Series の場合:
Console Break
※ [Console Break]を選択後、Console BreakエージェントとしてRCCUを選択してください。
設定終了後、<次へ>をクリックします。
■XSCFの設定
シャットダウンエージェントに [XSCF Panic] または [XSCF Reset] を選択した場合は、XSCFの設定を行う画面が表示されます。
“5.1.2.1.1 コンソール情報の確認”でメモしておいた XSCF に関する情報を設定します。
図5.3 XSCFの設定
XSCFのIPアドレスまたは/etc/inet/hostsに登録されているXSCFのホスト名を入力します。
制御ポートへログインするためのユーザ名を入力します。
制御ポートへログインするためのパスワードを入力します。
設定終了後、<次へ>をクリックします。
■Console Breakエージェントの設定
シャットダウンエージェントに[Console Break]を選択した場合は、Console Breakエージェントを選択する画面が表示されます。
図5.4 Console Breakエージェントの選択
使用するConsole Breakエージェントとして何を選択するかは、設定する機種により異なります。ハードウェアの機種を確認して適切なConsole Breakエージェントを設定してください。
PRIMEPOWER 250、450 の場合:
RCCU または XSCF
PRIMEPOWER 200、400、600、650、850 の場合:
RCCU
S-Series の場合:
RCCU
設定終了後、<次へ>をクリックします。
■RCCUの設定
Console Breakエージェントに RCCU を選択した場合は、RCCU の設定を行います。
“5.1.2.1.1 コンソール情報の確認”でメモしておいた RCCU に関する情報を設定します。
RCCUを工場出荷状態のまま使用する場合は[デフォルトを使用]をチェックします。
それ以外の場合は[デフォルトを使用]のチェックを外し、RCCU の制御ポートにログインするためのユーザ名、パスワード、スーパーユーザのパスワードの各項目を設定します。
図5.5 RCCUの設定(デフォルトを使用)
RCCUのIPアドレスまたは/etc/inet/hostsファイルに記載してあるRCCU のホスト名を入力します。
設定終了後、<次へ>をクリックします。
図5.6 RCCUの設定(デフォルトを使用しない)
RCCUのIPアドレスまたは/etc/inet/hostsファイルに記載してあるRCCU のホスト名を入力します。
RCCUの制御ポートへログインするためのユーザ名を入力します。
RCCUの制御ポートへログインするためのパスワードを入力します。
確認のため「パスワード1」に設定したパスワードを入力します。
RCCUの制御ポートへスーパーユーザ権限でログインするためのパスワードを入力します。
確認のため「パスワード2(Admin)」 に設定したパスワードを入力します。
設定終了後、<次へ>をクリックします。
■Wait for PROMの設定
注意
[Wait for PROM]は未サポート機能であるため、必ずチェックボックスのチェックを外し、[次へ]ボタンをクリックしてください。
図5.7 Wait for PROMの設定
■ノードの重みと管理LAN IPアドレスの設定
ノードの重みと管理LAN IPアドレスを設定します。
図5.8 ノードの重みと管理LAN IPアドレスの設定
クラスタを構成するノードの重みを入力します。重みは、クラスタパーティションが発生した場合に生存するノード群の生存優先度の特定に使用されます。各ノードに対して入力できる値は1 ~ 300 です。
生存優先度と重みについては下の説明を参照してください。
直接IP アドレスを入力するか、またはタブをクリックして管理LAN のIP アドレスに割り当てられたホスト名をセットします。
設定終了後、<次へ>をクリックします。
◆生存優先度
クラスタインタコネクトの障害によりクラスタパーティションが発生した場合、まだ全ノードがユーザ資産にアクセスできる状態にあります。クラスタパーティションについては、“PRIMECLUSTER コンセプトガイド”の“2.2.2.1 データ整合性の保証”を参照してください。
ユーザ資産であるデータの整合性を保証するために、生存させるノード群と強制停止させるノード群を決定する必要があります。
PRIMECLUSTERでは、それぞれのノード群に対する重み付けを「生存優先度」と呼んでいます。
ノードの重みが大きいほど生存優先度は高くなり、小さくなるにつれて生存優先度は低くなります。ノード群の生存優先度が同じ場合は、ノード名がアルファベット順で最も早いノードを含むノード群が生存します。
生存優先度は、以下の計算で求められます。
生存優先度=SFのノードの重み(weight)+userApplicationの ShutdownPriority
ノードの重み。デフォルト値=1。シャットダウン機能の設定の際に指定します。
設定はuserApplication作成時の属性設定で行ってください。設定値の変更方法については、“8.1.2 クラスタアプリケーションの運用属性の変更”を参照してください。
参照
userApplicationのShutdownPriority属性については、“6.6.5 属性の説明”を参照してください。
◆生存優先度の設計指針
以下に、代表的なケースをもとに、生存優先度の設計指針を示します。
[最も多くのノードを生存させたい場合]
全てのノードのweightを1(デフォルト)に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
[特定のノードを生存させたい場合]
生存させるノードのweightをその他ノードのweightの合計の2倍以上の値に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
以下は、node1を生存させる場合の例です。
[特定のアプリケーションが動作しているノードを生存させたい場合]
全てのノードのweightを1(デフォルト)に設定
動作を続けさせるユーザアプリケーションのShutdownPriority属性をその他のユーザアプリケーションのShutdownPriority属性と全てのノードのweightの合計の2倍以上の値に設定
以下は、app1が動作しているノードを生存させる場合の例です。
■設定の保存
設定内容を確認して、保存します。
ウィンドウの左パネルにはクラスタを構成するノードが表示され、各ノードに対して構成されたシャットダウンエージェントが表示されます。
図5.9 設定の保存
<次へ>をクリックすると、確認ポップアップ画面が表示されます。<はい>を選択して設定を保存します。
■シャットダウン機構の構成状態の表示
設定を保存すると、シャットダウン機構の構成状態の表示画面が表示されます。この画面では、状態を表示するノードを選択することにより、各ノードのシャットダウン機構の構成状態を確認することができます。
参考
シャットダウン機構の構成状態は、Cluster AdminのCFメインウィンドウで、[ツール]メニューの [シャットダウン機構]-[状態の表示]を選択しても表示することができます。
図5.10 状態の表示
通常のシステム運用時にはUnknown と表示されており、ノードに異常が発生し、シャットダウン機構がノードの停止に成功すると、KillWorked に変わります。
ノード異常発生時にノードを停止させる経路をテストした状態を表しています。経路のテストが完了していない時はUnknown と表示されますが、構成されたシャットダウンエージェントが正常に動作した場合、TestWorked に変わります。
シャットダウンエージェントを初期化した状態を表しています。
構成ウィザードを終了する時は、<完了> をクリックするとポップアップ画面が表示されますので、<はい>をクリックします。
注意
この画面でシャットダウン機能が正常に動作していることを確認してください。
シャットダウン機構の設定が完了しているのに、初期状態がInitFailed と表示されたり、テスト状態にUnknown や赤字でTestFailed と表示された場合は、エージェントやハードウェアの構成設定に誤りがある可能性があります。/var/adm/messagesファイルとコンソール出力画面にエラーメッセージが出力されていないか確認してください。その後、出力されたメッセージの内容に対応した対処を実施します。
参照
エラーメッセージの対処方法については、以下のマニュアルを参照してください。
“PRIMECLUSTER Cluster Foundation 導入運用手引書”の“12.12 非同期監視メッセージ”
各シャットダウンエージェントのタイムアウト値が、以下の値になっていることを確認してください。タイムアウト値は、シャットダウン構成ウィザード画面の左パネルで確認できます。
<タイムアウト値算出方法>
RCCU、XSCFの場合
4ノード以下
タイムアウト値 = 20 (秒)
5ノード以上
タイムアウト値 = 6 x クラスタノード数 + 2 (秒)
例)5ノードの場合: 6 x 5 + 2 = 32 (秒)
RCIの場合
タイムアウト値 = 20 (秒)
上記の値に設定されていない場合は、以下の手順でタイムアウト値を設定してください。
■タイムアウト値の設定方法
Cluster Admin の CFメインウィンドウで、[ツール]メニューの[シャットダウン機構]-[設定ウィザード]を選択し、設定ウィザードを起動します。
図5.11 設定方法の選択
[詳細な設定] を選択して、<次へ>をクリックします。
[編集]を選択して、<次へ>をクリックします。
[設定終了]を選択して、<次へ>をクリックします。
図5.12 シャットダウンエージェントの実行順序
<次へ>をクリックします。
注意
シャットダウンエージェントの実行順序は変更しないでください。
図5.13 タイムアウト値
タイムアウト値を秒単位で入力します。デフォルト値は20秒です。
設定終了後、<次へ>をクリックします。
“ノードの重みと管理LAN IPアドレスの設定”画面が表示されますので、<次へ>をクリックして、設定を保存します。
SPARC Enterprise M3000、M4000、M5000、M8000、M9000 では、XSCF を使用します。シャットダウン機構のコンソール非同期監視機能としての XSCF への接続方法は、 SSH または telnet から選択することができます。デフォルトは SSH となります。
シャットダウン機構の設定をする前に、XSCF に関する以下の設定を確認してください。
共通
シャットダウン機構用にログインユーザアカウントが root 以外で作成され、かつ、platadm 権限を付与されていること
SSH 接続する場合
XSCF において、外部からの接続許可プロトコル種別で SSH が有効になっていること
シャットダウン機構用のログインユーザアカウントを使用して、全てのクラスタノードから XSCF へ SSH 接続し、SSH初回接続時のユーザ問い合わせ (RSA鍵の生成など) が完了していること
telnet 接続する場合
XSCF において、外部からの接続許可プロトコル種別で telnet が有効になっていること
注意
XSCF への接続がシリアルポート接続のみの場合、シャットダウン機構ではサポートされません。XSCF-LAN を使用した SSH 接続、またはtelnet 接続 のいずれかを使用してください。
また、XSCFに関する以下の情報をメモしてください。
XSCF のIPアドレス(*1)、または、ノードの/etc/inet/hostsに登録されているXSCFのホスト名
XSCF においての、シャットダウン機構用のログインユーザアカウントとパスワード
*1) ネットワークルーティングが設定されている場合は、XSCF の IP アドレスがクラスタノードの管理 LAN と同一セグメントである必要はありません。
参照
XSCFの設定方法、確認方法については、“XSCFユーザーズガイド”を参照してください。
ハードウェアの機種により、必要なシャットダウンエージェントとその設定手順が異なります。
以下に示す、ハードウェアの機種とシャットダウンエージェントの組み合わせを確認して、適切なシャットダウンエージェントを設定してください。
日本で他社が提供したSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合
日本以外で富士通・Oracle両社のロゴを配した筐体のSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合
XSCF Panic
Console Break
XSCF Reset
上記以外のSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合
RCI Panic
XSCF Panic
Console Break
RCI Reset
XSCF Reset
■非同期監視の動作環境の設定
本設定は、以下の場合のみ必要です。
日本で他社が提供したSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合
日本以外で富士通・Oracle両社のロゴを配した筐体のSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合
事前に非同期監視の動作環境の設定が必要です。
クラスタシステムを構成する任意の1ノードで以下のコマンドを実行します。
# /etc/opt/FJSVcluster/bin/cldevparam -p VendorType 1 |
全ノードで以下のコマンドを実行し、正しく設定されたことを確認します。
# /etc/opt/FJSVcluster/bin/cldevparam -p VendorType
1
# |
■シャットダウン構成ウィザードの起動
Cluster Admin 画面のCFメインウィンドウで、[ツール]メニューの [シャットダウン機構]-[設定ウィザード] を選択してシャットダウン構成ウィザードを起動します。
注意
シャットダウン機能の設定は、CFウィザードでCF構成の設定を完了したあと、続けて行うこともできます。
以下の確認ポップアップ画面が表示されるので、<はい>をクリックすると、シャットダウン構成ウィザードが起動します。
■設定方法の選択
シャットダウン機構の設定方法は、以下の2種類を選択することができます。
簡単な設定(推奨)
詳細な設定
ここでは、「簡単な設定(推奨)」を使用した設定について説明します。この方法では、推奨されているPRIMECLUSTERのシャットダウン機構の構成を流れに沿って設定できます。
図5.14 設定方法の選択
「簡単な設定(推奨)」 を選択して、<次へ>をクリックします。
■シャットダウンエージェントの選択
ハードウェアの機種を確認して適切なシャットダウンエージェントを選択します。
図5.15 シャットダウンエージェントの選択
「SCON を使用しない設定」を選択します。
次に、ハードウェアの機種に応じて以下のシャットダウンエージェントを全て選択します。
日本で他社が提供したSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合
日本以外で富士通・Oracle両社のロゴを配した筐体のSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合
XSCF Panic
Console Break
XSCF Reset
上記以外のSPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合
RCI Panic
XSCF Panic
Console Break
RCI Reset
XSCF Reset
設定終了後、<次へ>をクリックします。
■XSCFの設定
シャットダウンエージェントに [XSCF Panic] または [XSCF Reset] を選択した場合は、XSCFの設定を行う画面が表示されます。
“5.1.2.2.1 コンソール情報の確認”でメモしておいた XSCF に関する情報を設定します。
図5.16 XSCFの設定
XSCFのIPアドレスまたは/etc/inet/hostsに登録されているXSCFのホスト名を入力します。
制御ポートへログインするためのユーザ名を入力します。
制御ポートへログインするためのパスワードを入力します。
設定終了後、<次へ>をクリックします。
■Console Breakエージェントの設定
シャットダウンエージェントに[Console Break]を選択した場合は、Console Breakエージェントを選択する画面が表示されます。
SPARC Enterprise M3000、M4000、M5000、M8000、M9000の場合、Console BreakエージェントはXSCFを選択してください。
図5.17 Console Breakエージェントの選択
設定終了後、<次へ>をクリックします。
■Wait for PROMの設定
注意
[Wait for PROM]は未サポート機能であるため、必ずチェックボックスのチェックを外し、[次へ]ボタンをクリックしてください。
図5.18 Wait for PROMの設定
■ノードの重みと管理LAN IPアドレスの設定
ノードの重みと管理LAN IPアドレスを設定します。
図5.19 ノードの重みと管理LAN IPアドレスの設定
クラスタを構成するノードの重みを入力します。重みは、クラスタパーティションが発生した場合に生存するノード群の生存優先度の特定に使用されます。各ノードに対して入力できる値は1 ~ 300 です。
生存優先度と重みについては下の説明を参照してください。
直接IP アドレスを入力するか、またはタブをクリックして管理LAN のIP アドレスに割り当てられたホスト名をセットします。
設定終了後、<次へ>をクリックします。
◆生存優先度
クラスタインタコネクトの障害によりクラスタパーティションが発生した場合、まだ全ノードがユーザ資産にアクセスできる状態にあります。クラスタパーティションについては、“PRIMECLUSTER コンセプトガイド”の“2.2.2.1 データ整合性の保証”を参照してください。
ユーザ資産であるデータの整合性を保証するために、生存させるノード群と強制停止させるノード群を決定する必要があります。
PRIMECLUSTERでは、それぞれのノード群に対する重み付けを「生存優先度」と呼んでいます。
ノードの重みが大きいほど生存優先度は高くなり、小さくなるにつれて生存優先度は低くなります。ノード群の生存優先度が同じ場合は、ノード名がアルファベット順で最も早いノードを含むノード群が生存します。
生存優先度は、以下の計算で求められます。
生存優先度=SFのノードの重み(weight)+userApplicationの ShutdownPriority
ノードの重み。デフォルト値=1。シャットダウン機能の設定の際に指定します。
設定はuserApplication作成時の属性設定で行ってください。設定値の変更方法については、“8.1.2 クラスタアプリケーションの運用属性の変更”を参照してください。
参照
userApplicationのShutdownPriority属性については、“6.6.5 属性の説明”を参照してください。
◆生存優先度の設計指針
以下に、代表的なケースをもとに、生存優先度の設計指針を示します。
[最も多くのノードを生存させたい場合]
全てのノードのweightを1(デフォルト)に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
[特定のノードを生存させたい場合]
生存させるノードのweightをその他ノードのweightの合計の2倍以上の値に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
以下は、node1を生存させる場合の例です。
[特定のアプリケーションが動作しているノードを生存させたい場合]
全てのノードのweightを1(デフォルト)に設定
動作を続けさせるユーザアプリケーションのShutdownPriority属性をその他のユーザアプリケーションのShutdownPriority属性と全てのノードのweightの合計の2倍以上の値に設定
以下は、app1が動作しているノードを生存させる場合の例です。
■設定の保存
設定内容を確認して、保存します。
ウィンドウの左パネルにはクラスタを構成するノードが表示され、各ノードに対して構成されたシャットダウンエージェントが表示されます。
図5.20 設定の保存
<次へ>をクリックすると、確認ポップアップ画面が表示されます。<はい>を選択して設定を保存します。
■シャットダウン機構の構成状態の表示
設定を保存すると、シャットダウン機構の構成状態の表示画面が表示されます。この画面では、状態を表示するノードを選択することにより、各ノードのシャットダウン機構の構成状態を確認することができます。
参考
シャットダウン機構の構成状態は、Cluster AdminのCFメインウィンドウで、[ツール]メニューの [シャットダウン機構]-[状態の表示]を選択しても表示することができます。
図5.21 状態の表示
通常のシステム運用時にはUnknown と表示されており、ノードに異常が発生し、シャットダウン機構がノードの停止に成功すると、KillWorked に変わります。
ノード異常発生時にノードを停止させる経路をテストした状態を表しています。経路のテストが完了していない時はUnknown と表示されますが、構成されたシャットダウンエージェントが正常に動作した場合、TestWorked に変わります。
シャットダウンエージェントを初期化した状態を表しています。
構成ウィザードを終了する時は、<完了>をクリックするとポップアップ画面が表示されますので、<はい>をクリックします。
注意
この画面でシャットダウン機能が正常に動作していることを確認してください。
シャットダウン機構の設定が完了しているのに、初期状態がInitFailed と表示されたり、テスト状態にUnknown や赤字でTestFailed と表示された場合は、エージェントやハードウェアの構成設定に誤りがある可能性があります。/var/adm/messagesファイルとコンソール出力画面にエラーメッセージが出力されていないか確認してください。その後、出力されたメッセージの内容に対応した対処を実施します。
XSCFへの接続方法がtelnet接続の場合、この時点でテスト状態はTestFailed となります。“5.1.2.2.4 XSCFへの接続方法の設定”を実施後、シャットダウン機能が正常に動作していることを確認してください。
参照
エラーメッセージの対処方法については、以下のマニュアルを参照してください。
“PRIMECLUSTER Cluster Foundation 導入運用手引書”の“12.12 非同期監視メッセージ”
各シャットダウンエージェントのタイムアウト値が、以下の値になっていることを確認してください。タイムアウト値は、シャットダウン構成ウィザード画面の左パネルで確認できます。
<タイムアウト値算出方法>
XSCF Panic/XSCF Breakの場合
4ノード以下
タイムアウト値 = 20 (秒)
5ノード以上
タイムアウト値 = 6 x クラスタノード数 + 2 (秒)
例)5ノードの場合: 6 x 5 + 2 = 32 (秒)
XSCF Resetの場合
4ノード以下
タイムアウト値 = 40 (秒)
5ノード以上
タイムアウト値 = 6 x クラスタノード数 + 22 (秒)
例)5ノードの場合: 6 x 5 + 22 = 52 (秒)
RCIの場合
タイムアウト値 = 20 (秒)
上記の値に設定されていない場合は、以下の手順でタイムアウト値を設定してください。
■タイムアウト値の設定方法
Cluster Admin の CFメインウィンドウで、[ツール]メニューの[シャットダウン機構]-[設定ウィザード]を選択し、設定ウィザードを起動します。
図5.22 設定方法の選択
[詳細な設定] を選択して、<次へ>をクリックします。
[編集]を選択して、<次へ>をクリックします。
[設定終了]を選択して、<次へ>をクリックします。
図5.23 シャットダウンエージェントの実行順序
<次へ>をクリックします。
注意
シャットダウンエージェントの実行順序は変更しないでください。
図5.24 タイムアウト値
タイムアウト値を、<タイムアウト値算出方法>で算出した値(秒)に変更します。デフォルト値は20秒と表示されます。
設定終了後、<次へ>をクリックします。
“ノードの重みと管理LAN IPアドレスの設定”画面が表示されますので、<次へ>をクリックして、設定を保存します。
SPARC Enterprise M3000、M4000、M5000、M8000、M9000では、XSCFへの接続方法のデフォルトはSSH接続です。telnet接続に変更する場合は以下の手順で行います。
■接続方法の変更
全ノードで以下のコマンドを実行し、接続方法を変更します。
# /etc/opt/FJSVcluster/bin/clrccusetup -m -t telnet
例)
# /etc/opt/FJSVcluster/bin/clrccusetup -m -t telnet <RETURN> # /etc/opt/FJSVcluster/bin/clrccusetup -l <RETURN> Device-name cluster-host-name IP-address host-name user-name connection-type ------------------------------------------------------------------------------- xscf fuji2 xscf2 1 xuser telnet xscf fuji3 xscf3 1 xuser telnet
■シャットダウン機構の起動
各ノードで以下のコマンドを実行し、シャットダウン機構が起動済か確認してください。
# /opt/SMAW/bin/sdtool -s
シャットダウン機構の構成状態が表示された場合、シャットダウン機構は起動済です。
“The RCSD is not running”が表示された場合、シャットダウン機構は起動されていません。
シャットダウン機構が起動済の場合、以下のコマンドを実行し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -r
シャットダウン機構が起動していない場合、以下のコマンドを実行し、シャットダウン機構を起動してください。
# /opt/SMAW/bin/sdtool -b
SPARC Enterprise T1000、T2000 では、ALOM を使用します。
シャットダウン機構の設定をする前に、ALOM に関する以下の設定を確認してください。
シャットダウン機構用にログインユーザアカウントが作成され、cレベル (コンソールアクセス) 権限が付与されていること
外部からの接続許可プロトコル種別で、telnetが有効になっていること
以下のALOM構成変数はデフォルトから変更されていないこと
if_emailalerts false(デフォルト)
sc_clieventlevel 2(デフォルト)
sc_cliprompt sc(デフォルト)
注意
ALOM への外部からの接続許可はデフォルトでSSHとなっています。その場合、シャットダウン機構ではサポートされません。
ALOM への接続がシリアルポート接続のみの場合、シャットダウン機構ではサポートされません。
また、ALOMに関する以下の情報をメモしてください。
ALOMのIPアドレス(*1)または/etc/inet/hostsに登録されているALOMホスト名
ALOMへログインするためのユーザ名
ALOMへログインするためのパスワード
*1) ネットワークルーティングが設定されている場合は、ALOM の IP アドレスがクラスタノードの管理 LAN と同一セグメントである必要はありません。
参照
ALOMの設定方法、確認方法については、“Advanced Lights out Management (ALOM) CMT ガイド”を参照してください。
SPARC Enterprise T1000、T2000のシャットダウン機構の設定は、シャットダウン構成ウィザードでは行うことができません。
シャットダウン機能の設定は、CFウィザードでCF構成の設定を完了したあと、以下の確認ポップアップ画面が表示されるので、<いいえ>をクリックし、シャットダウン構成ウィザードを終了してください。
SPARC Enterprise T1000、T2000のシャットダウン機構は、以下の手順で行います。
■シャットダウン機構の設定
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP:agent=SA_sunF,timeout=timeout
CFNameX,weight=weight,admIP=myadmIP:agent=SA_sunF,timeout=timeout
クラスタホストのCFノード名を指定します。
SFのノードの重みを指定します。
自ノードの管理LANのIPアドレスを指定します。
シャットダウンエージェントの名前を指定します。
SPARC Enterprise T1000、T2000では、ALOMシャットダウンエージェントの「SA_sunF」を指定します。
シャットダウンエージェントのタイムアウト時間を指定します。
SPARC Enterprise T1000、T2000では40秒を指定します。
例)
node1,weight=1,admIP=10.20.30.100:agent=SA_sunF,timeout=40 node2,weight=1,admIP=10.20.30.200:agent=SA_sunF,timeout=40
◆生存優先度
クラスタインタコネクトの障害によりクラスタパーティションが発生した場合、まだ全ノードがユーザ資産にアクセスできる状態にあります。クラスタパーティションについては、“PRIMECLUSTER コンセプトガイド”の“2.2.2.1 データ整合性の保証”を参照してください。
ユーザ資産であるデータの整合性を保証するために、生存させるノード群と強制停止させるノード群を決定する必要があります。
PRIMECLUSTERでは、それぞれのノード群に対する重み付けを「生存優先度」と呼んでいます。
ノードの重みが大きいほど生存優先度は高くなり、小さくなるにつれて生存優先度は低くなります。ノード群の生存優先度が同じ場合は、ノード名がアルファベット順で最も早いノードを含むノード群が生存します。
生存優先度は、以下の計算で求められます。
生存優先度=SFのノードの重み(weight)+userApplicationの ShutdownPriority
ノードの重み。デフォルト値=1。シャットダウン機能の設定の際に指定します。
設定はuserApplication作成時の属性設定で行ってください。設定値の変更方法については、“8.1.2 クラスタアプリケーションの運用属性の変更”を参照してください。
参照
userApplicationのShutdownPriority属性については、“6.6.5 属性の説明”を参照してください。
◆生存優先度の設計指針
以下に、代表的なケースをもとに、生存優先度の設計指針を示します。
[最も多くのノードを生存させたい場合]
全てのノードのweightを1(デフォルト)に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
[特定のノードを生存させたい場合]
生存させるノードのweightをその他ノードのweightの合計の2倍以上の値に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
以下は、node1を生存させる場合の例です。
[特定のアプリケーションが動作しているノードを生存させたい場合]
全てのノードのweightを1(デフォルト)に設定
動作を続けさせるユーザアプリケーションのShutdownPriority属性をその他のユーザアプリケーションのShutdownPriority属性と全てのノードのweightの合計の2倍以上の値に設定
以下は、app1が動作しているノードを生存させる場合の例です。
■ALOMシャットダウンエージェントの設定
“5.1.2.3.1 コンソール情報の確認”でメモしておいた ALOM に関する情報を設定します。
全ノードで/etc/opt/SMAW/SMAWsf/SA_sunF.cfgを以下のように作成してください。
SystemContorollerTag SystemControllerHostName SystemControllerLogin PWord
void void CFBAMEX
SystemContorollerTag SystemControllerHostName SystemControllerLogin PWord
void void CFBAMEX
システムコントローラのタイプ
ALOMシャットダウンエージェントの場合、「system-controller-alom-2k」を指定します。
ALOMのIPアドレス
ALOM設定時に定義したadminユーザ名を指定します。
ALOM設定時に定義したadminパスワードを指定します。
クラスタホストのCFノード名を指定します。
例)
system-controller-alom-2k 10.20.30.100 admin admin01 void void node1 system-controller-alom-2k 10.20.30.200 admin admin01 void void node2
■シャットダウン機構の起動
各ノードで以下のコマンドを実行し、シャットダウン機構が起動済か確認してください。
# /opt/SMAW/bin/sdtool -s
シャットダウン機構の構成状態が表示された場合、シャットダウン機構は起動済です。
“The RCSD is not running”が表示された場合、シャットダウン機構は起動されていません。
シャットダウン機構が起動済の場合、以下のコマンドを実行し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -r
シャットダウン機構が起動していない場合、以下のコマンドを実行し、シャットダウン機構を起動してください。
# /opt/SMAW/bin/sdtool -b
■シャットダウン機構の構成状態の表示
各ノードで以下のコマンドを実行し、シャットダウン機構の構成状態を確認することができます。
# /opt/SMAW/bin/sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------------------------------------------------------------------------- node1 SA_sunF Idle Unknown TestWorked InitWorked node2 SA_sunF Idle Unknown TestWorked InitWorked
通常のシステム運用時にはUnknownと表示されており、ノードに異常が発生し、シャットダウン機構がノードの停止に成功すると、KillWorkedに変わります。
ノード異常発生時にノードを停止させる経路をテストした状態を表しています。経路のテストが完了していない時はUnknownと表示されますが、構成されたシャットダウンエージェントが正常に動作した場合、TestWorkedに変わります。
シャットダウンエージェントを初期化した状態を表しています。
注意
sdtool -sコマンドの表示結果でシャットダウン機構が正常に動作していることを確認してください。
シャットダウン機構の設定が完了しているのに、初期状態がInitFailedと表示されたり、テスト状態にUnknownやTestFailedと表示された場合は、エージェントやハードウェアの構成設定に誤りがある可能性があります。/var/adm/messagesファイルとコンソール出力画面にエラーメッセージが出力されていないか確認してください。その後、出力されたメッセージの内容に対応した対処を実施します。
SPARC Enterprise T5120、T5220、T5140、T5240、T5440、SPARC T3シリーズでは、ILOM を使用します。
シャットダウン機構の設定をする前に、ILOM に関する以下の設定を確認してください。
シャットダウン機構用にログインユーザアカウントが作成され、そのアカウントの CLI モードが、デフォルトモード(*1)に設定されていること
シャットダウン機構用のログインユーザアカウントを使用して、全てのクラスタノードから ILOM へ SSH 接続し、SSH初回接続時のユーザ問い合わせ (RSA鍵の生成など) が完了していること
ILOM 3.0 の場合、以下の設定も確認してください。
シャットダウン機構用のログインユーザアカウントに、以下の権限のいずれかが設定されていること
keyswitch_state パラメータが normal の場合
Console, Reset and Host Control, Read Only (cro)
Operator(*2)
keyswitch_state パラメータが locked の場合
Admin (a)
Administrator(*2)
必要な権限が設定されていない場合、権限の設定状況により、シャットダウンエージェントのテスト失敗(TestFailed)、または強制停止に失敗(KillFailed)します。
シャットダウン機構用のログインユーザアカウントに、SSH ホストベースキー認証を使用していないこと
また、ILOMに関する以下の情報をメモしてください。
ILOM のIPアドレス(*3)
ILOM においての、シャットダウン機構用のログインユーザアカウントとパスワード
*1) ログインユーザアカウントの CLI モードが、デフォルトモードに設定されているかどうかは、以下の方法で確認できます。
ILOM の CLI にログインします。
プロンプトの状態を確認します。
デフォルトモードに設定されている場合のプロンプト:
->
alom モードに設定されている場合のプロンプト:
sc>
*2) ILOM 3.0 の ILOM 2.x 互換により、ILOM 2.x の Administrator 権限またはOperator 権限を持つユーザでも動作可能です。
*3) ネットワークルーティングが設定されている場合は、ILOM の IP アドレスがクラスタノードの管理 LAN と同一セグメントである必要はありません。
参照
ILOMの設定方法、確認方法については、以下を参照してください。
ILOM 2.x の場合
Integrated Lights Out Manager ユーザーズガイド
ILOM 3.0 の場合
Integrated Lights Out Manager (ILOM) 3.0 概念ガイド
Integrated Lights Out Manager (ILOM) 3.0 Web Interface 手順ガイド
Integrated Lights Out Manager (ILOM) 3.0 CLI 手順ガイド
Integrated Lights Out Manager (ILOM) 3.0 入門ガイド
■シャットダウン機構の設定
全ノードで/etc/opt/SMAW/SMAWsf/rcsd.cfgを以下のような内容で作成します。
CFNameX,weight=weight,admIP=myadmIP:agent=SA_ilomp,timeout=timeout:agent=SA_ilomr,timeout=timeout CFNameX,weight=weight,admIP=myadmIP:agent=SA_ilomp,timeout=timeout:agent=SA_ilomr,timeout=timeout
クラスタホストのCFノード名を指定します。
SFのノードの重みを指定します。
自ノードの管理LANのIPアドレスを指定します。
シャットダウンエージェントの名前を指定します。
SPARC Enterprise T5120、T5220、T5140、T5240、T5440、SPARC T3シリーズでは、ILOMシャットダウンエージェントを「SA_ilomp」、「SA_ilomr」の順に指定します。
シャットダウンエージェントのタイムアウト時間を指定します。
SPARC Enterprise T5120、T5220、T5140、T5240、T5440、SPARC T3シリーズでは70秒を指定します。
例)
node1,weight=1,admIP=10.20.30.100:agent=SA_ilomp,timeout=70:agent=SA_ilomr,timeout=70 node2,weight=1,admIP=10.20.30.200:agent=SA_ilomp,timeout=70:agent=SA_ilomr,timeout=70
◆生存優先度
クラスタインタコネクトの障害によりクラスタパーティションが発生した場合、まだ全ノードがユーザ資産にアクセスできる状態にあります。クラスタパーティションについては、“PRIMECLUSTER コンセプトガイド”の“2.2.2.1 データ整合性の保証”を参照してください。
ユーザ資産であるデータの整合性を保証するために、生存させるノード群と強制停止させるノード群を決定する必要があります。
PRIMECLUSTERでは、それぞれのノード群に対する重み付けを「生存優先度」と呼んでいます。
ノードの重みが大きいほど生存優先度は高くなり、小さくなるにつれて生存優先度は低くなります。ノード群の生存優先度が同じ場合は、ノード名がアルファベット順で最も早いノードを含むノード群が生存します。
生存優先度は、以下の計算で求められます。
生存優先度=SFのノードの重み(weight)+userApplicationの ShutdownPriority
ノードの重み。デフォルト値=1。シャットダウン機能の設定の際に指定します。
設定はuserApplication作成時の属性設定で行ってください。設定値の変更方法については、“8.1.2 クラスタアプリケーションの運用属性の変更”を参照してください。
参照
userApplicationのShutdownPriority属性については、“6.6.5 属性の説明”を参照してください。
◆生存優先度の設計指針
以下に、代表的なケースをもとに、生存優先度の設計指針を示します。
[最も多くのノードを生存させたい場合]
全てのノードのweightを1(デフォルト)に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
[特定のノードを生存させたい場合]
生存させるノードのweightをその他ノードのweightの合計の2倍以上の値に設定
全てのユーザアプリケーションのShutdownPriority属性を0(デフォルト)に設定
以下は、node1を生存させる場合の例です。
[特定のアプリケーションが動作しているノードを生存させたい場合]
全てのノードのweightを1(デフォルト)に設定
動作を続けさせるユーザアプリケーションのShutdownPriority属性をその他のユーザアプリケーションのShutdownPriority属性と全てのノードのweightの合計の2倍以上の値に設定
以下は、app1が動作しているノードを生存させる場合の例です。
■ILOMシャットダウンエージェントの設定
“5.1.2.4.1 コンソール情報の確認”でメモしておいた ILOM に関する情報を設定します。
全ノードでclrccusetup(1M)コマンドを実行し、自ノードのコンソール情報を登録してください。
例)
# /etc/opt/FJSVcluster/bin/clrccusetup -a ilom 10.20.30.51 admin <RETURN> Enter User's Password: Re-enter User's Password: # /etc/opt/FJSVcluster/bin/clrccusetup -l Device-name cluster-host-name IP-address host-name user-name ------------------------------------------------------------------------------- ilom node1 10.20.30.50 - admin ilom node1 10.20.30.51 - admin
■コンソール非同期監視の起動
各ノードで以下のコマンドを実行し、コンソール非同期監視のデーモンが起動済か確認してください。
# /etc/opt/FJSVcluster/bin/clrccumonctl
“The devrccud daemon exixts.”が表示された場合、コンソール非同期監視のデーモンは起動済です。
“The devrccud daemon does not exixts.”が表示された場合、コンソール非同期監視のデーモンは起動されていません。以下のコマンドを実行し、コンソール非同期監視のデーモンを起動してください。
# /etc/opt/FJSVcluster/bin/clrccumonctl start
■シャットダウン機構の起動
各ノードで以下のコマンドを実行し、シャットダウン機構が起動済か確認してください。
# /opt/SMAW/bin/sdtool -s
シャットダウン機構の構成状態が表示された場合、シャットダウン機構は起動済です。
“The RCSD is not running”が表示された場合、シャットダウン機構は起動されていません。
シャットダウン機構が起動済の場合、以下のコマンドを実行し、シャットダウン機構を再起動してください。
# /opt/SMAW/bin/sdtool -r
シャットダウン機構が起動していない場合、以下のコマンドを実行し、シャットダウン機構を起動してください。
# /opt/SMAW/bin/sdtool -b
■シャットダウン機構の構成状態の表示
各ノードで以下のコマンドを実行し、シャットダウン機構の構成状態を確認してください。
# /opt/SMAW/bin/sdtool -s Cluster Host Agent SA State Shut State Test State Init State ------------------------------------------------------------------------------- node1 SA_ilomp.so Idle Unknown TestWorked InitWorked node1 SA_ilomr.so Idle Unknown TestWorked InitWorked node2 SA_ilomp.so Idle Unknown TestWorked InitWorked node2 SA_ilomr.so Idle Unknown TestWorked InitWorked
通常のシステム運用時にはUnknownと表示されています。ノードに異常が発生し、シャットダウン機構がノードの停止に成功すると、KillWorkedに変わります。
ノード異常発生時にノードを停止させる経路をテストした状態を表しています。経路のテストが完了していない時はUnknownと表示されますが、構成されたシャットダウンエージェントが正常に動作した場合、TestWorkedに変わります。
シャットダウンエージェントを初期化した状態を表しています。
注意
sdtool -sコマンドの表示結果でシャットダウン機構が正常に動作していることを確認してください。
シャットダウン機構の設定が完了しているのに、初期状態がInitFailedと表示されたり、テスト状態にUnknownやTestFailedと表示された場合は、エージェントやハードウェアの構成設定に誤りがある可能性があります。/var/adm/messagesファイルとコンソール出力画面にエラーメッセージが出力されていないか確認してください。その後、出力されたメッセージの内容に対応した対処を実施します。
ILOMへ接続する場合、同時に3つ以上の接続を行わないでください。
やむを得ず接続する場合には、事前に全ノードのシャットダウン機構を停止させてください。そして、接続を切断した後、全ノードのシャットダウン機構を起動し、状態が正常か確認してください。シャットダウン機構の停止、起動、状態確認については、sdtool(1M)を参照してください。