7.4.1 資源の状態が異常となった場合の対処方法

資源の状態が異常となった場合の対処方法について説明します。

以下の手順で、対処を行ってください。

リソースに異常が発生した場合には、PRIMECLUSTER、およびOS等の機能を利用して異常を検出、および原因となる障害発生リソースの特定を行うことができます。

以下、文中の(a)、(b)．．．は、後述の◆異常確認機能一覧に対応しています。

◆異常の検出

通常、RMSメインウィンドウ(a)を使用して、クラスタアプリケーションの監視を行います。

リソースやシステムに故障が発生した場合
userApplicationのフェイルオーバが発生したり、ノードのパニックが発生します。
この場合、以下の現象が発生することで、異常を検出することができます。
- RMSメインウィンドウ(a)内のアイコンの色が変わる。
- msgメインウィンドウ(c)、Syslog(f)、コンソール(g)にメッセージが表示される。
システムに警告レベルの異常が発生した場合
システムに警告レベル（ディスク容量不足、swap領域不足等）が発生した場合、以下の現象が発生することで、異常を検出することができます。
- Syslog(f)、コンソール(g)にメッセージが表示される。
RMS起動時にuserApplicationが起動しない
RMS起動時に、全てのノードでRMSが起動していない場合、userApplicationは起動しません。このような場合、以下を行うことで、userApplicationを起動することができます。
- clreplyコマンドを実行することで、未応答のオペレータ介入要求を確認することができます。未応答のオペレータ介入要求メッセージ応答することで、userApplicationを起動することができます。clreplyコマンドについては、マニュアルページを参照してください。
- Syslog(f)、コンソール(g)にオペレータ介入要求メッセージが表示されます。オペレータ介入要求メッセージに応答することで、userApplicationを起動することができます。
オペレータ介入要求メッセージの詳細については、“D.4 オペレータ介入メッセージ”を参照してください。
注意
未応答のオペレータ介入要求メッセージが複数ある場合は、オペレータ介入要求メッセージごとに複数回応答してください。

他にも、以降の「◆異常確認機能一覧」の機能を利用して異常を検出できます。

◆原因の特定

異常の検出を行った機能、および以下の「◆異常確認機能一覧」の機能を利用して原因となる障害発生リソースの特定を行うことができます。

◆異常確認機能一覧

異常確認機能		マニュアル参照先
(a)	RMSメインウィンドウ RMSツリー、RMSクラスタテーブルを使用します。	7.1.3 RMSメインウィンドウ
(b)	CFメインウィンドウ CFツリーを使用できます。	7.1.1 CFメインウィンドウ
(c)	MSGメインウィンドウクラスタ制御のメッセージを参照できます。 Cluster Admin 画面の[msg]タブを選択時に表示されます。
(d)	アプリケーションログ	7.3.4.2 アプリケーションログの表示
(e)	switchlog	7.3.4.1 switchlogの表示
(f)	Syslog
(g)	コンソールコンソール上またはSyslogに表示されるメッセージで確認できます。※	付録D メッセージ
(h)	GDS の GUI	PRIMECLUSTER Global Disk Services 説明書

※コンソールについて

RMSが全てのノードで起動していない場合のオペレータ介入要求メッセージ(メッセージ番号：1421,1423)は、userApplicationのAutoStartUp 属性にyes(1)が設定されている場合のみ表示されます。userApplicationの属性については、“PRIMECLUSTER RMS 導入運用手引書”の“11 付録-属性”を参照してください。
リソースやシステム故障発生後のRMS起動時のオペレータ介入要求メッセージ(メッセージ番号：1422,1423)と故障リソースのメッセージは、userApplicationのPresistentFault 属性にyes(1)が設定されている場合のみ表示されます。userApplicationの属性については、“PRIMECLUSTER RMS 導入運用手引書”の“11 付録-属性”を参照してください。
オペレータ介入要求と故障リソースのメッセージは、clwatchlogdデーモンがswitchlogを監視することで表示しています。RMS のhvenv.local ファイルに設定されているRELIANT_LOG_PATH の値を変更したときは、clwatchlogd にSIGHUP シグナルを送信する必要があります。clwatchlogd はこのシグナルを受信すると、RELIANT_LOG_PATH の最新の値を取得します。RELIANT_LOG_PATHの値を変更したときは、この操作を実行してからRMS を起動してください。

注意

リソース故障のメッセージを確認した場合、クラスタアプリケーションが Offline 状態であっても、MONITORONLY 属性を設定したリソースが、故障状態になっている可能性があります。故障状態のリソースが存在しないか確認してください。特に、Fsystem リソースが故障状態になっていないか確認してください。

以下の対処を行ってください。

障害が発生したリソースの対処
障害が発生したリソースの問題を解決します。詳細は、“PRIMECLUSTER RMS リファレンスガイド”を参照してください。
注意
PRIMECLUSTER 製品以外に運用管理製品を使用している場合は、各運用管理製品で対処が必要な場合があります。
詳細は、各運用管理製品のマニュアルを参照してください。
(例) Symfoware
クラスタアプリケーションの復旧
RMSメインウィンドウで、対処したリソースが登録されているクラスタアプリケーションの状態を確認します。クラスタアプリケーションがFaulted状態の場合は、Faultedのクリア操作を行ってください。
Faultedのクリア操作については、“7.2.2.4 Faulted 状態のクラスタアプリケーションを運用状態にする”を参照してください。

7.4.1 資源の状態が異常となった場合の対処方法

7.4.1.1 異常発生時の異常検出と原因の特定

7.4.1.2 障害が発生したリソースの対処