資源の状態が異常となった場合の対処方法について説明します。
以下の手順で、対処を行ってください。
リソースに異常が発生した場合には、PRIMECLUSTER、およびOS等の機能を利用して異常を検出、および原因となる障害発生リソースの特定を行うことができます。
以下、文中の(a)、(b)...は、後述の◆異常確認機能一覧に対応しています。
◆異常の検出
通常、RMSメインウィンドウ(a)を使用して、クラスタアプリケーションの監視を行います。
リソースやシステムに故障が発生した場合
userApplicationのフェイルオーバが発生したり、ノードのパニックが発生します。
この場合、以下の現象が発生することで、異常を検出することができます。
RMSメインウィンドウ(a)内のアイコンの色が変わる。
msgメインウィンドウ(c)、Syslog(f)、コンソール(g)にメッセージが表示される。
システムに警告レベルの異常が発生した場合
システムに警告レベル(ディスク容量不足、swap領域不足等)が発生した場合、以下の現象が発生することで、異常を検出することができます。
Syslog(f)、コンソール(g)にメッセージが表示される。
RMS起動時にuserApplicationが起動しない
RMS起動時に、全てのノードでRMSが起動していない場合、userApplicationは起動しません。このような場合、以下を行うことで、userApplicationを起動することができます。
clreplyコマンドを実行することで、未応答のオペレータ介入要求を確認することができます。未応答のオペレータ介入要求メッセージ応答することで、userApplicationを起動することができます。clreplyコマンドについては、マニュアルページを参照してください。
Syslog(f)、コンソール(g)にオペレータ介入要求メッセージが表示されます。オペレータ介入要求メッセージに応答することで、userApplicationを起動することができます。
オペレータ介入要求メッセージの詳細については、“D.4 オペレータ介入メッセージ”を参照してください。
注意
未応答のオペレータ介入要求メッセージが複数ある場合は、オペレータ介入要求メッセージごとに複数回応答してください。
他にも、以降の「◆異常確認機能一覧」の機能を利用して異常を検出できます。
◆原因の特定
異常の検出を行った機能、および以下の「◆異常確認機能一覧」の機能を利用して原因となる障害発生リソースの特定を行うことができます。
◆異常確認機能一覧
異常確認機能 | マニュアル参照先 | |
---|---|---|
(a) | RMSメインウィンドウ | |
(b) | CFメインウィンドウ | |
(c) | MSGメインウィンドウ |
|
(d) | アプリケーションログ | |
(e) | switchlog | |
(f) | Syslog |
|
(g) | コンソール | |
(h) | GDS の GUI | PRIMECLUSTER Global Disk Services 説明書 |
※コンソールについて
RMSが全てのノードで起動していない場合のオペレータ介入要求メッセージ(メッセージ番号:1421,1423)は、userApplicationのAutoStartUp 属性にyes(1)が設定されている場合のみ表示されます。userApplicationの属性については、“PRIMECLUSTER RMS 導入運用手引書”の“11 付録-属性”を参照してください。
リソースやシステム故障発生後のRMS起動時のオペレータ介入要求メッセージ(メッセージ番号:1422,1423)と故障リソースのメッセージは、userApplicationのPresistentFault 属性にyes(1)が設定されている場合のみ表示されます。userApplicationの属性については、“PRIMECLUSTER RMS 導入運用手引書”の“11 付録-属性”を参照してください。
オペレータ介入要求と故障リソースのメッセージは、clwatchlogdデーモンがswitchlogを監視することで表示しています。RMS のhvenv.local ファイルに設定されているRELIANT_LOG_PATH の値を変更したときは、clwatchlogd にSIGHUP シグナルを送信する必要があります。clwatchlogd はこのシグナルを受信すると、RELIANT_LOG_PATH の最新の値を取得します。RELIANT_LOG_PATHの値を変更したときは、この操作を実行してからRMS を起動してください。
注意
リソース故障のメッセージを確認した場合、クラスタアプリケーションが Offline 状態であっても、MONITORONLY 属性を設定したリソースが、故障状態になっている可能性があります。故障状態のリソースが存在しないか確認してください。特に、Fsystem リソースが故障状態になっていないか確認してください。
以下の対処を行ってください。
障害が発生したリソースの対処
障害が発生したリソースの問題を解決します。詳細は、“PRIMECLUSTER RMS リファレンスガイド”を参照してください。
注意
PRIMECLUSTER 製品以外に運用管理製品を使用している場合は、各運用管理製品で対処が必要な場合があります。
詳細は、各運用管理製品のマニュアルを参照してください。
(例) Symfoware
クラスタアプリケーションの復旧
RMSメインウィンドウで、対処したリソースが登録されているクラスタアプリケーションの状態を確認します。クラスタアプリケーションがFaulted状態の場合は、Faultedのクリア操作を行ってください。
Faultedのクリア操作については、“7.2.2.4 Faulted 状態のクラスタアプリケーションを運用状態にする”を参照してください。