7.4.1 資源の状態が異常となった場合の対処方法

リソースに異常が発生した場合には、PRIMECLUSTER、およびOS等の機能を利用して異常を検出、および原因となる障害発生リソースの特定を行うことができます。

以下、文中の(a)、(b)．．．は、後述の◆異常確認機能一覧に対応しています。

◆異常の検出

通常、RMSメインウィンドウ(a)を使用して、クラスタアプリケーションの監視を行います。

リソースやシステムに故障が発生した場合
userApplicationのフェイルオーバが発生したり、ノードのパニックが発生します。
この場合、以下の現象が発生することで、異常を検出することができます。
- RMSメインウィンドウ(a)内のアイコンの色が変わる。
- msgメインウィンドウ(c)、syslog(f)、コンソール(g)にメッセージが表示される。
システムに警告レベルの異常が発生した場合
システムに警告レベル（ディスク容量不足、swap領域不足等）が発生した場合、以下の現象が発生することで、異常を検出することができます。
- syslog(f)、コンソール(g)にメッセージが表示される。
RMS起動時にuserApplicationが起動しない
RMS起動時に、すべてのノードでRMSが起動していない場合、userApplicationは起動しません。このような場合、以下を行うことで、userApplicationを起動することができます。
- clreplyコマンドを実行することで、未応答のオペレータ介入要求を確認することができます。未応答のオペレータ介入要求メッセージ応答することで、userApplicationを起動することができます。clreplyコマンドについては、マニュアルページを参照してください。
- syslog(f)、コンソール(g)にオペレータ介入要求メッセージが表示されます。オペレータ介入要求メッセージに応答することで、userApplicationを起動することができます。
オペレータ介入要求メッセージの詳細については、“PRIMECLUSTER 活用ガイド＜メッセージ集＞”の“4.2 応答（QUESTION）メッセージ”を参照してください。
注意
未応答のオペレータ介入要求メッセージが複数ある場合は、オペレータ介入要求メッセージごとに複数回応答してください。

他にも、以降の「◆異常確認機能一覧」の機能を利用して異常を検出できます。

◆原因の特定

異常の検出を行った機能、および以下の「◆異常確認機能一覧」の機能を利用して原因となる障害発生リソースの特定を行うことができます。

◆異常確認機能一覧

異常確認機能		マニュアル参照先
(a)	RMSメインウィンドウ RMSツリー、RMSクラスタテーブルを使用します。	7.1.3 RMSメインウィンドウ
(b)	CFメインウィンドウ CFツリーを使用できます。	7.1.1 CFメインウィンドウ
(c)	MSGメインウィンドウクラスタ制御のメッセージを参照できます。 Cluster Admin 画面の[msg]タブを選択時に表示されます。
(d)	アプリケーションログ	7.3.4.2 アプリケーションログの表示
(e)	switchlog	7.3.4.1 switchlogの表示
(f)	syslog
(g)	コンソールコンソール上またはsyslogに表示されるメッセージで確認できます。※	PRIMECLUSTER 活用ガイド＜メッセージ集＞
(h)	GDS の GUI	PRIMECLUSTER Global Disk Services 説明書

※コンソールについて

RMSがすべてのノードで起動していない場合のオペレータ介入要求メッセージ(メッセージ番号：1421,1423)は、userApplicationのAutoStartUp 属性にyes(1)が設定されている場合のみ表示されます。userApplicationの属性については、“PRIMECLUSTER RMS 導入運用手引書”の“付録D 属性”を参照してください。
リソースやシステム故障発生後のRMS起動時のオペレータ介入要求メッセージ(メッセージ番号：1422,1423)と故障リソースのメッセージは、userApplicationのPresistentFault 属性にyes(1)が設定されている場合のみ表示されます。userApplicationの属性については、“PRIMECLUSTER RMS 導入運用手引書”の“付録D 属性”を参照してください。
オペレータ介入要求と故障リソースのメッセージは、clwatchlogdデーモンがswitchlogを監視することで表示しています。RMS のhvenv.local ファイルに設定されているRELIANT_LOG_PATH の値を変更したときは、clwatchlogd にSIGHUP シグナルを送信する必要があります。clwatchlogd はこのシグナルを受信すると、RELIANT_LOG_PATH の最新の値を取得します。RELIANT_LOG_PATHの値を変更したときは、この操作を実行してからRMS を起動してください。

注意

リソース故障のメッセージを確認した場合、クラスタアプリケーションが Offline 状態であっても、MONITORONLY 属性を設定したリソースが、故障状態になっている可能性があります。故障状態のリソースが存在しないか確認してください。特に、Fsystem リソースが故障状態になっていないか確認してください。

7.4.1.2 障害が発生したリソースの対処

以下の対処を行ってください。

障害が発生したリソースの対処
障害が発生したリソースの問題を解決します。詳細は、“PRIMECLUSTER RMS 導入運用手引書”を参照してください。
注意
PRIMECLUSTER 製品以外に運用管理製品を使用している場合は、各運用管理製品で対処が必要な場合があります。
詳細は、各運用管理製品のマニュアルを参照してください。
(例) Symfoware
クラスタアプリケーションの復旧
RMSメインウィンドウで、対処したリソースが登録されているクラスタアプリケーションの状態を確認します。クラスタアプリケーションがFaulted状態の場合は、Faultedのクリア操作を行ってください。
Faultedのクリア操作については、“7.2.2.4 Faulted 状態のクラスタアプリケーションを運用可能な状態にする”を参照してください。
リソースの故障形跡のクリア
障害が発生したリソースの故障形跡をクリアします。詳細は、“7.2.3.3 リソースの故障形跡をクリアする”を参照してください。

7.4.1.3 クラスタインタコネクトの異常の復旧

クラスタインタコネクトの異常は、以下のような原因で発生することが考えられます。

ハードウェア異常
- LANカード、ハブ、ケーブル等の故障
- 接続ミス
ネットワーク設定の誤り
- IPアドレス、ネットマスク、ルーティング情報等の設定ミス

ネットワーク設定の誤りについては、システム管理者に確認してください。ここでは、ハードウェア異常の対処法について説明します。

クラスタインタコネクトのハードビートで異常を検出した場合、以下のいずれかのメッセージが /var/log/messagesファイルに出力されます。

"CF: Problem detected on cluster interconnect NIC_NAME to node NODE_NAME: missing heartbeat replies. (CODE)"
"CF: Problem detected on cluster interconnect NIC_NAME to node NODE_NAME: ICF route marked down. (CODE)"

"NIC_NAME" は異常を検出したネットワークインタフェースカードを示します。

"NODE_NAME" は異常を検出したCFノード名を示します。

"CODE" は調査に必要な情報を示します。

上記のいずれかのメッセージが出力された場合、以下の対処を行ってください。

[対処法]

故障ノードの特定
各装置の確認およびpingコマンドなどで故障箇所、および故障ノードを特定してください。
注意
クラスタインタコネクトの全系異常(各ノードに接続されるすべてのインタコネクトの異常)が発生した場合、クラスタシステムは、生存優先度の高いノードを残し、それ以外のノードを強制停止します。
生存優先度については、“5.1.2 シャットダウン機構の設定”を参照してください。
Online状態のクラスタアプリケーションが存在するノードのLANカード故障など、故障ノードが運用状態のノードの場合は、保守を行うためにノードの停止が必要となります。業務停止時間を短くするために、以下の手順を実施した後、“手順2. 保守作業の実施” を行ってください。
1. Online状態のノードの停止
  保守を行うため、Online状態のクラスタアプリケーションが存在するノードを停止します。
2. 強制停止されたノードの起動
  クラスタシステムにより強制停止されたノードを起動し、クラスタアプリケーションをOnline状態にします。クラスタアプリケーションの起動方法については、“7.2.1.1 RMSを起動する” を参照してください。
  本手順は、必ず “1. Online状態のノードの停止” のノードが停止したことを確認した後に実施してください。
保守作業の実施
異常箇所が特定できたら、異常となったものにより以下の方法で保守作業を行います。
注意
LANカードの異常の場合、異常ノードを停止させて保守する必要があります。
ケーブルやハブの異常の場合、ノード起動状態での保守が可能です。
- LANカード、または、ケーブルが異常と判断された場合
  ケーブルが抜けている場合、ケーブルを正しく接続してください。
  ケーブルが抜けていない場合、LANカードが故障している可能性があります。当社技術員(SE)に連絡してください。
- ハブが異常と判断された場合
  ハブの電源が入っていない場合、電源を入れてください。
  ハブの電源が入っている場合、ハブが故障している可能性があります。当社技術員(SE)に連絡してください。
復旧
クラスタインタコネクトの片系異常を復旧させる場合は、以下の“手順2. クラスタインタコネクトの復旧確認”から作業を行ってください。
1. 全ノードの起動
  すべてのノードを起動してください。
2. クラスタインタコネクトの復旧確認
  pingコマンドなどを利用して、異常が発生していたクラスタインタコネクトを通して、相互に通信できることを確認してください。
必要であれば、クラスタインタコネクトの復旧確認を行った後で、クラスタアプリケーションのFaulted状態のクリア操作を行ってください。操作方法については “7.2.2.4 Faulted 状態のクラスタアプリケーションを運用可能な状態にする”を参照してください。