資源の状態が異常となった場合の対処方法について説明します。
以下の手順で、対処を行ってください。
リソースに異常が発生した場合には、PRIMECLUSTER、およびOS等の機能を利用して異常を検出、および原因となる障害発生リソースの特定を行うことができます。
以下、文中の(a)、(b)...は、後述の◆異常確認機能一覧に対応しています。
◆異常の検出
通常、RMSメインウィンドウ(a)を使用して、クラスタアプリケーションの監視を行います。
リソースやシステムに故障が発生した場合
userApplicationのフェイルオーバが発生したり、ノードのパニックが発生します。
この場合、以下の現象が発生することで、異常を検出することができます。
RMSメインウィンドウ(a)内のアイコンの色が変わる。
msgメインウィンドウ(c)、Syslog(f)、コンソール(g)にメッセージが表示される。
システムに警告レベルの異常が発生した場合
システムに警告レベル(ディスク容量不足、swap領域不足等)が発生した場合、以下の現象が発生することで、異常を検出することができます。
Syslog(f)、コンソール(g)にメッセージが表示される。
RMS起動時にuserApplicationが起動しない
RMS起動時に、全てのノードでRMSが起動していない場合、userApplicationは起動しません。このような場合、以下を行うことで、userApplicationを起動することができます。
clreplyコマンドを実行することで、未応答のオペレータ介入要求を確認することができます。未応答のオペレータ介入要求メッセージ応答することで、userApplicationを起動することができます。clreplyコマンドについては、マニュアルページを参照してください。
Syslog(f)、コンソール(g)にオペレータ介入要求メッセージが表示されます。オペレータ介入要求メッセージに応答することで、userApplicationを起動することができます。
オペレータ介入要求メッセージの詳細については、“D.4 オペレータ介入メッセージ”を参照してください。
注意
未応答のオペレータ介入要求メッセージが複数ある場合は、オペレータ介入要求メッセージごとに複数回応答してください。
他にも、以降の「◆異常確認機能一覧」の機能を利用して異常を検出できます。
◆原因の特定
異常の検出を行った機能、および以下の「◆異常確認機能一覧」の機能を利用して原因となる障害発生リソースの特定を行うことができます。
◆異常確認機能一覧
異常確認機能 | マニュアル参照先 | |
---|---|---|
(a) | RMSメインウィンドウ | |
(b) | CFメインウィンドウ | |
(c) | MSGメインウィンドウ |
|
(d) | アプリケーションログ | |
(e) | switchlog | |
(f) | Syslog |
|
(g) | コンソール | |
(h) | GDS の GUI | PRIMECLUSTER Global Disk Services 説明書 |
※コンソールについて
RMSが全てのノードで起動していない場合のオペレータ介入要求メッセージ(メッセージ番号:1421,1423)は、userApplicationのAutoStartUp 属性にyes(1)が設定されている場合のみ表示されます。userApplicationの属性については、“PRIMECLUSTER RMS 導入運用手引書”の“11 付録-属性”を参照してください。
リソースやシステム故障発生後のRMS起動時のオペレータ介入要求メッセージ(メッセージ番号:1422,1423)と故障リソースのメッセージは、userApplicationのPresistentFault 属性にyes(1)が設定されている場合のみ表示されます。userApplicationの属性については、“PRIMECLUSTER RMS 導入運用手引書”の“11 付録-属性”を参照してください。
オペレータ介入要求と故障リソースのメッセージは、clwatchlogdデーモンがswitchlogを監視することで表示しています。RMS のhvenv.local ファイルに設定されているRELIANT_LOG_PATH の値を変更したときは、clwatchlogd にSIGHUP シグナルを送信する必要があります。clwatchlogd はこのシグナルを受信すると、RELIANT_LOG_PATH の最新の値を取得します。RELIANT_LOG_PATHの値を変更したときは、この操作を実行してからRMS を起動してください。
注意
リソース故障のメッセージを確認した場合、クラスタアプリケーションが Offline 状態であっても、MONITORONLY 属性を設定したリソースが、故障状態になっている可能性があります。故障状態のリソースが存在しないか確認してください。特に、Fsystem リソースが故障状態になっていないか確認してください。
以下の対処を行ってください。
障害が発生したリソースの対処
障害が発生したリソースの問題を解決します。詳細は、“PRIMECLUSTER RMS リファレンスガイド”を参照してください。
注意
PRIMECLUSTER 製品以外に運用管理製品を使用している場合は、各運用管理製品で対処が必要な場合があります。
詳細は、各運用管理製品のマニュアルを参照してください。
(例) Symfoware
クラスタアプリケーションの復旧
RMSメインウィンドウで、対処したリソースが登録されているクラスタアプリケーションの状態を確認します。クラスタアプリケーションがFaulted状態の場合は、Faultedのクリア操作を行ってください。
Faultedのクリア操作については、“7.2.2.4 Faulted 状態のクラスタアプリケーションを運用可能な状態にする”を参照してください。
クラスタインタコネクトの異常は、以下のような原因で発生することが考えられます。
ハードウェア異常
LANカード、ハブ、ケーブル等の故障
接続ミス
ネットワーク設定の誤り
IPアドレス、ネットマスク、ルーティング情報等の設定ミス
ネットワーク設定の誤りについては、システム管理者に確認してください。ここでは、ハードウェア異常の対処法について説明します。
クラスタインタコネクトのハードビートで異常を検出した場合、以下のいずれかのメッセージが /var/log/messagesファイルに出力されます。
"CF: Problem detected on cluster interconnect NIC_NAME to node NODE_NAME: missing heartbeat replies. (CODE)" "CF: Problem detected on cluster interconnect NIC_NAME to node NODE_NAME: ICF route marked down. (CODE)"
"NIC_NAME" は異常を検出したネットワークインターフェースカードを示します。
"NODE_NAME" は異常を検出したCFノード名を示します。
"CODE" は調査に必要な情報を示します。
上記のいずれかのメッセージが出力された場合、以下の対処を行ってください。
[対処法]
故障ノードの特定
各装置の確認およびpingコマンドなどで故障箇所、および故障ノードを特定してください。
注意
クラスタインタコネクトの全系異常(各ノードに接続されるすべてのインタコネクトの異常)が発生した場合、クラスタシステムは、生存優先度の高いノードを残し、それ以外のノードを強制停止します。
生存優先度については、“5.1.2 シャットダウン機構の設定”を参照してください。
Online状態のクラスタアプリケーションが存在するノードのLANカード故障など、故障ノードが運用状態のノードの場合は、保守を行うためにノードの停止が必要となります。業務停止時間を短くするために、以下の手順を実施した後、“手順2. 保守作業の実施” を行ってください。
Online状態のノードの停止
保守を行うため、Online状態のクラスタアプリケーションが存在するノードを停止します。
強制停止されたノードの起動
クラスタシステムにより強制停止されたノードを起動し、クラスタアプリケーションをOnline状態にします。クラスタアプリケーションの起動方法については、“7.2.1.1 RMSを起動する” を参照してください。
本手順は、必ず “1. Online状態のノードの停止” のノードが停止したことを確認した後に実施してください。
保守作業の実施
異常箇所が特定できたら、異常となったものにより以下の方法で保守作業を行います。
注意
LANカードの異常の場合、異常ノードを停止させて保守する必要があります。
ケーブルやハブの異常の場合、ノード起動状態での保守が可能です。
LANカード、または、ケーブルが異常と判断された場合
ケーブルが抜けている場合、ケーブルを正しく接続してください。
ケーブルが抜けていない場合、LANカードが故障している可能性があります。当社技術員(SE)に連絡してください。
ハブが異常と判断された場合
ハブの電源が入っていない場合、電源を入れてください。
ハブの電源が入っている場合、ハブが故障している可能性があります。当社技術員(SE)に連絡してください。
復旧
クラスタインタコネクトの片系異常を復旧させる場合は、以下の“手順2. クラスタインタコネクトの復旧確認”から作業を行ってください。
全ノードの起動
全てのノードを起動してください。
クラスタインタコネクトの復旧確認
pingコマンドなどを利用して、異常が発生していたクラスタインタコネクトを通して、相互に通信できることを確認してください。
必要であれば、クラスタインタコネクトの復旧確認を行った後で、クラスタアプリケーションのFaulted状態のクリア操作を行ってください。操作方法については “7.2.2.4 Faulted 状態のクラスタアプリケーションを運用可能な状態にする”を参照してください。