ページの先頭行へ戻る
PRIMECLUSTER  導入運用手引書 4.7

7.4.1 資源の状態が異常となった場合の対処方法

資源の状態が異常となった場合の対処方法について説明します。

以下の手順で、対処を行ってください。

7.4.1.1 異常発生時の異常検出と原因の特定

リソースに異常が発生した場合には、PRIMECLUSTER、およびOS等の機能を利用して異常を検出、および原因となる障害発生リソースの特定を行うことができます。

以下、文中の(a)、(b)...は、後述の◆異常確認機能一覧に対応しています。

◆異常の検出

通常、RMSメインウィンドウ(a)を使用して、クラスタアプリケーションの監視を行います。

他にも、以降の「◆異常確認機能一覧」の機能を利用して異常を検出できます。

◆原因の特定

異常の検出を行った機能、および以下の「◆異常確認機能一覧」の機能を利用して原因となる障害発生リソースの特定を行うことができます。

◆異常確認機能一覧

異常確認機能

マニュアル参照

(a)

RMSメインウィンドウ
RMSツリー、RMSクラスタテーブルを使用します。

7.1.3 RMSメインウィンドウ

(b)

CFメインウィンドウ
CFツリーを使用できます。

7.1.1 CFメインウィンドウ

(c)

MSGメインウィンドウ
クラスタ制御のメッセージを参照できます。
Cluster Admin 画面の[msg]タブを選択時に表示されます。

(d)

アプリケーションログ

7.3.4.2 アプリケーションログの表示

(e)

switchlog

7.3.4.1 switchlogの表示

(f)

syslog

(g)

コンソール
コンソール上またはsyslogに表示されるメッセージで確認できます。

PRIMECLUSTER 活用ガイド<メッセージ集>

(h)

GDS の GUI

PRIMECLUSTER Global Disk Services 説明書

コンソールについて

注意

リソース故障のメッセージを確認した場合、クラスタアプリケーションが Offline 状態であっても、MONITORONLY 属性を設定したリソースが、故障状態になっている可能性があります。故障状態のリソースが存在しないか確認してください。特に、Fsystem リソースが故障状態になっていないか確認してください。

7.4.1.2 障害が発生したリソースの対処

以下の対処を行ってください。

  1. 障害が発生したリソースの対処

    障害が発生したリソースの問題を解決します。詳細は、“PRIMECLUSTER RMS 導入運用手引書”を参照してください。

    注意

    PRIMECLUSTER 製品以外に運用管理製品を使用している場合は、各運用管理製品で対処が必要な場合があります。

    詳細は、各運用管理製品のマニュアルを参照してください。

    (例) Symfoware

  2. クラスタアプリケーションの復旧

    RMSメインウィンドウで、対処したリソースが登録されているクラスタアプリケーションの状態を確認します。クラスタアプリケーションがFaulted状態の場合は、Faultedのクリア操作を行ってください。

    Faultedのクリア操作については、“7.2.2.4 Faulted 状態のクラスタアプリケーションを運用可能な状態にする”を参照してください。

  3. リソースの故障形跡のクリア

    障害が発生したリソースの故障形跡をクリアします。詳細は、“7.2.3.3 リソースの故障形跡をクリアする”を参照してください。

7.4.1.3 クラスタインタコネクトの異常の復旧

クラスタインタコネクトの異常は、以下のような原因で発生することが考えられます。

ネットワーク設定の誤りについては、システム管理者に確認してください。ここでは、ハードウェア異常の対処法について説明します。

クラスタインタコネクトのハードビートで異常を検出した場合、以下のいずれかのメッセージが /var/log/messagesファイルに出力されます。

"CF: Problem detected on cluster interconnect NIC_NAME to node NODE_NAME: missing heartbeat replies. (CODE)"
"CF: Problem detected on cluster interconnect NIC_NAME to node NODE_NAME: ICF route marked down. (CODE)"

"NIC_NAME" は異常を検出したネットワークインタフェースカードを示します。

"NODE_NAME" は異常を検出したCFノード名を示します。

"CODE" は調査に必要な情報を示します。

上記のいずれかのメッセージが出力された場合、以下の対処を行ってください。

[対処法]

  1. 故障ノードの特定

    各装置の確認およびpingコマンドなどで故障箇所、および故障ノードを特定してください。

    注意

    クラスタインタコネクトの全系異常(各ノードに接続されるすべてのインタコネクトの異常)が発生した場合、クラスタシステムは、生存優先度の高いノードを残し、それ以外のノードを強制停止します。

    生存優先度については、“5.1.2 シャットダウン機構の設定”を参照してください。

    Online状態のクラスタアプリケーションが存在するノードのLANカード故障など、故障ノードが運用状態のノードの場合は、保守を行うためにノードの停止が必要となります。業務停止時間を短くするために、以下の手順を実施した後、“手順2. 保守作業の実施” を行ってください。

    1. Online状態のノードの停止

      保守を行うため、Online状態のクラスタアプリケーションが存在するノードを停止します。

    2. 強制停止されたノードの起動

      クラスタシステムにより強制停止されたノードを起動し、クラスタアプリケーションをOnline状態にします。クラスタアプリケーションの起動方法については、“7.2.1.1 RMSを起動する” を参照してください。
      本手順は、必ず “1. Online状態のノードの停止” のノードが停止したことを確認した後に実施してください。

  2. 保守作業の実施

    異常箇所が特定できたら、異常となったものにより以下の方法で保守作業を行います。

    注意

    LANカードの異常の場合、異常ノードを停止させて保守する必要があります。

    ケーブルやハブの異常の場合、ノード起動状態での保守が可能です。

    • LANカード、または、ケーブルが異常と判断された場合

      ケーブルが抜けている場合、ケーブルを正しく接続してください。
      ケーブルが抜けていない場合、LANカードが故障している可能性があります。当社技術員(SE)に連絡してください。

    • ハブが異常と判断された場合

      ハブの電源が入っていない場合、電源を入れてください。
      ハブの電源が入っている場合、ハブが故障している可能性があります。当社技術員(SE)に連絡してください。

  3. 復旧

    クラスタインタコネクトの片系異常を復旧させる場合は、以下の“手順2. クラスタインタコネクトの復旧確認”から作業を行ってください。

    1. 全ノードの起動

      すべてのノードを起動してください。

    2. クラスタインタコネクトの復旧確認

      pingコマンドなどを利用して、異常が発生していたクラスタインタコネクトを通して、相互に通信できることを確認してください。

    必要であれば、クラスタインタコネクトの復旧確認を行った後で、クラスタアプリケーションのFaulted状態のクリア操作を行ってください。操作方法については “7.2.2.4 Faulted 状態のクラスタアプリケーションを運用可能な状態にする”を参照してください。