資源の状態が異常となった場合の対処方法について説明します。
以下の手順で、対処を行ってください。
リソースに異常が発生した場合には、PRIMECLUSTER、およびOS等の機能を利用して異常を検出、および原因となる障害発生リソースの特定を行うことができます。
以下、文中の(a)、(b)...は、後述の◆異常確認機能一覧に対応しています。
◆異常の検出
通常、RMSメインウィンドウ(b)を使用して、クラスタアプリケーションの監視を行います。
リソースやシステムに故障が発生した場合
userApplicationのフェイルオーバ、およびノードのパニックが発生します。
この場合、以下の現象が発生することで、異常を検出することができます。
メッセージ画面(a)がポップアップ表示される。
RMSメインウィンドウ(b)内のアイコンの色が変わる。
msgメインウィンドウ(g)、syslog(j)、コンソール(k)にメッセージが表示される。
システムに警告レベルの異常が発生した場合
システムに警告レベル(ディスク容量不足、swap領域不足等)が発生した場合、以下の現象が発生することで、異常を検出することができます。
CRMメインウィンドウ(d)内のノードアイコンが変わる。
syslog(j)、コンソール(k)にメッセージが表示される。
RMS起動時にuserApplicationが起動しない
RMS起動時に、全てのノードでRMSが起動していない場合、userApplicationは起動しません。このような場合、以下を行うことで、userApplicationを起動することができます。
clreplyコマンドを実行することで、未応答のオペレータ介入要求を確認することができます。未応答のオペレータ介入要求メッセージ応答することで、userApplicationを起動することができます。clreplyコマンドについては、マニュアルページを参照してください。
syslog(j)、コンソール(k)にオペレータ介入要求メッセージが表示されます。オペレータ介入要求メッセージに応答することで、userApplicationを起動することができます。
オペレータ介入要求メッセージの詳細については、“PRIMECLUSTER 活用ガイド<メッセージ集>”の“4.2 応答(QUESTION)メッセージ”を参照してください。
注意
未応答のオペレータ介入要求メッセージが複数ある場合は、オペレータ介入要求メッセージごとに複数回応答してください。
他にも、以降の「◆異常確認機能一覧」の機能を利用して異常を検出できます。
◆原因の特定
異常の検出を行った機能、および以下の「◆異常確認機能一覧」の機能を利用して原因となる障害発生リソースの特定を行うことができます。
◆異常確認機能一覧
異常確認機能 | マニュアル参照先 | |
---|---|---|
(a) | メッセージ画面 | |
(b) | RMSメインウィンドウ | |
(c) | CFメインウィンドウ | |
(d) | CRMメインウィンドウ | |
(e) | “Resource Fault History”画面 | |
(f) | 現時点で障害が発生しているリソースのリスト | |
(g) | MSGメインウィンドウ | |
(h) | アプリケーションログ | |
(i) | switchlog | |
(j) | syslog | |
(k) | コンソール | PRIMECLUSTER 活用ガイド<メッセージ集> |
(l) | マシン管理のGUI | マシン管理説明書 |
(m) | MultiPathDisk view | マルチパスディスク制御ロードバランスオプション説明書 |
(n) | GDS の GUI | PRIMECLUSTER Global Disk Services 説明書 |
GDS: Global Disk Services
以下の対処を行ってください。
障害が発生したリソースの対処
障害が発生したリソースの問題を解決します。詳細は、“PRIMECLUSTER RMS 導入運用手引書”を参照してください。
パトロール診断のエラーメッセージが表示された場合は、“7.4.2 パトロール診断で異常が検出された場合の対処方法”を参照し、対処してください。
パトロール診断のメッセージは、メッセージを出力したプログラム名に“hvdet_sptl”が表示されるメッセージです。
注意
PRIMECLUSTER 製品以外に運用管理製品を使用している場合は、各運用管理製品で対処が必要な場合があります。
詳細は、各運用管理製品のマニュアルを参照してください。
(例) マシン管理、MultiPathDisk view、GDS
クラスタアプリケーションの復旧
RMSメインウィンドウで、対処したリソースが登録されているクラスタアプリケーションの状態を確認します。クラスタアプリケーションがFaulted状態の場合は、Faultedのクリア操作を行ってください。
Faultedのクリア操作については、“7.2.2.4 Faulted 状態のクラスタアプリケーションを運用可能な状態にする”を参照してください。
リソースの故障形跡のクリア
障害が発生したリソースの故障形跡をクリアします。詳細は、“7.2.3.3 リソースの故障形跡をクリアする”を参照してください。