PRIMECLUSTER 活用ガイド <クラスタ構築・運用時の留意点> (Solaris(TM)オペレーティングシステム/Linux版)
目次 索引 前ページ次ページ

第2部 運用編> 第7章 リソースの監視と故障検出

7.2 リソース故障と対処方法

本節では、リソース故障が発生した場合の検出方法と、対処方法について説明します。

運用中にリソース故障が発生した場合、以下の手順にしたがって故障箇所と故障原因を特定し対処してください。

  1. 表7.2 に示したメッセージが表示されているかを確認します。

    [表7.2 リソース故障の判定方法]

    故障検出箇所

    異常発生箇所

    出力されるメッセージ

    Online 処理の異常

    スクリプトタイムアウト

    (WLT, 1): ERROR: REASON: リソース名's OnlineScript (スクリプト) has exceeded the ScriptTimeout of タイムアウト seconds.

    (WLT, 7): NOTICE: Sending SIGTERM to script <スクリプト名> (プロセスID) now

    (SCR, 23): NOTICE: The script with pid <プロセスID> has terminated. The time it has spent in the user and kernel space is <> and <> seconds respectively.

    スクリプト異常終了

    (SCR, 9): ERROR: REASON: failed to execute script <OnlineScript> with resource <リソース名>: Exited with a non-zero code: 復帰値

    FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition procedure execution.(procedure file exit erro procedure: XXXX detail:XXXX-XXXX-XXXX-XXXX)

    ディテクタが Online を通知しない

    (DET, 6): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource failing to come Online after running its OnlineScript <スクリプト名>.

    Offline 処理の異常

    スクリプトタイムアウト

    (WLT, 1): ERROR: REASON: リソース名's OfflineScript (スクリプト) has exceeded the ScriptTimeout of タイムアウト seconds.

    (WLT, 7): NOTICE: Sending SIGTERM to script <スクリプト名> (プロセスID) now

    (SCR, 23): NOTICE: The script with pid <プロセスID> has terminated. The time it has spent in the user and kernel space is <> and <> seconds respectively.

    スクリプト異常終了

    (SCR, 9): ERROR: REASON: failed to execute script <OnlineScript> with resource <リソース名>: Exited with a non-zero code: 復帰値

    FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition procedure execution.(procedure file exit erro procedure XXXX detail:XXXX- XXXX-XXXX-XXXX)

    ディテクタが Offline を通知しない

    (DET, 5): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource failing to come Offline after running its OfflineScript <スクリプト名>.

    Standby 処理の異常

    スクリプトタイムアウト

    (WLT, 1): ERROR: REASON: リソース名's OnlineScript (スクリプト) has exceeded the ScriptTimeout of タイムアウト seconds.

    (WLT, 7): NOTICE: Sending SIGTERM to script <スクリプト名> (プロセスID) now

    (SCR, 23): NOTICE: The script with pid <プロセスID> has terminated. The time it has spent in the user and kernel space is <> and <> seconds respectively.

    スクリプト異常終了

    (SCR, 9): ERROR: REASON: failed to execute script <OnlineScript> with resource <リソース名>: Exited with a non-zero code: 復帰値

    FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition procedure execution.(procedure file exit erro procedure: XXXX detail:XXXX- XXXX-XXXX-XXXX)

    ディテクタが Standby を通知しない

    (DET, 24): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource failing to come Standby after running its OnlineScript <スクリプト名>.

    通常運用時の異常

    userApplication が Online 状態のときにディテクタが Offline を通知

    (DET, 7): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource unexpectedly becoming g Offline.

    userApplication が Standby 状態のときにディテクタが Offline を通知

    userApplication が Online 状態のときにディテクタが Fault を通知

    (DET, 2): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to a detector report.

    userApplication が Standby 状態のときにディテクタが Fault を通知

    Uap が Online 状態のときにディテクタが Warning を通知

    (DET, 35) : WARNING: Resource <リソース名> received detector report "DetReportsOnlineWarn", the WarningScript is not defined and will not be run.

    Uap が Standby 状態のときにディテクタが Warning を通知


    注:メッセージの詳細については、「PRIMECLUSTER 活用ガイド <メッセージ集>」を参照してください。

  2. 該当するメッセージが表示されていたら、メッセージ内のリソース名あるいはメッセージ本文によって異常が発生したリソースを特定します。

    故障リソースの判定方法は以下のとおりです。

    [表7.3 リソースの判定方法]

    リソース名

    リソース

    "ManageProgram"で始まる

    Cmdline

    "MountPoint"で始まる

    Fsystem

    "Interface"で始まる

    Ipaddress

    FJSVclusterの“6817"メッセージ

    プロシジャ

    PRIMECLUSTER GDS で管理されるクラス名で始まる

    Gds

    "Ipaddress"で始まる

    Gls

     

  3. 故障リソースが特定できたら、表7.4 にしたがって対処します。

    [表7.4 リソース故障と対処方法]

    リソース

    メッセージ

    主な故障要因

    対処方法

    対処者

    Cmdline

    (WLT,1)
    (WLT,7)
    (SCR,23)

    時間内に start/stop スクリプトが完了しない

    処理の妥当性を確認する
    妥当な処理であればタイムアウト値を変更する
    妥当な処理でなければ時間のかかる要因を確認し取り除く

    スクリプト作成者

    (SCR,9)

    • Start/stop スクリプトが異常値を通知した

    • スクリプトに実行権がない

    • スクリプトの復帰値で異常を通知する箇所を取り除く

    • スクリプトの実行権を付与する

    (DET,6)

    Start スクリプトは正常終了しているが Check スクリプトが復帰値 =0(Online) 以外を通知した

    Check スクリプトの復帰値で 0(Online) を通知しない箇所を確認する

    (DET,5)

    Stop スクリプトは正常終了しているが Check スクリプトが復帰値 =1(Offline) 以外を通知した

    Check スクリプトの復帰値で 1(Offline) を通知しない箇所を確認する

    (DET,24)

    Start スクリプトは正常終了しているが Check スクリプトが復帰値 =4(Standby) 以外を通知した

    Check スクリプトの復帰値で 4(Standby) 通知しない箇所を確認する

    (DET,7)

    userApplication がonline あるいは Standby 状態のときに Check スクリプトが復帰値 =1(Offline) を通知した

    Check スクリプトの復帰値で 1(Offline) を通知する箇所を確認する

    (DET,2)

    userApplication が online あるいは Standby 状態のときに Check スクリプトが復帰値 =2(Faulted) を通知した

    Check スクリプトの復帰値で 2(Faulted) を通知する箇所を確認する

    Fsystem

    (WLT,1)
    (WLT,7)
    (SCR,23)

    • Online 処理中に fsck 処理に時間を要している

    • Fsystem をマウントしているプロセスが存在する

    • Fsystem リソースのタイムアウト値を見直し、適切な値に変更する

    • Fsystem をマウントしているプロセスを確認し、プロセスを起動しないように見直してください

    当社技術員

    (SCR,9)

    • ファイルシステムが作成されていない

    • マウントポイントのパスが作成されていない

    • /etc/vfstab にマウントポイントに関する情報がない

    • /etc/vfstab の情報に誤りがある

    • /etc/dfs/dfstab が設定されていない

    • ファイルシステムを作成する

    • パスを作成する

    • /etc/vfstab にマウントポイントに関する情報を追加する

    • /etc/vfstab の情報を確認し、見直す

    • /etc/dfs/dfstab の情報が設定する

    システム管理者

    (DET,5)

    ディスクに異常がありファイルシステムへアクセスできない

    異常が発生しているディスク装置を交換する

    当社技術員

    (DET,7)

    • ディスクに異常がありファイルシステムへアクセスできない

    • ファイルシステムがアンマウントされた

    • share 状態が正しく認識できない

    • 異常が発生しているディスク装置を交換する

    • アンマウントしてるプロセスを確認し、見直す

    • クラスタ動作中に unshare された可能性があるため、unshare された原因を確認する

    当社技術員

    システム管理者

    引継ぎ IP

    (IPaddress)

    (WLT,1)
    (WLT,7)
    (SCR,23)

    • 引継ぎIPの名前解決ができない

    • /etc/hostname.<interface>の情報に誤りがある

    • /etc/nsswitch.confの記載順を見直す

    • /etc/hostname.<interface>を見直す

    システム管理者

    (SCR,9)

    • 引継ぎ IP アドレスが up 状態にならない

    • PingHost への ICMP 送受信が正しくできない

    • 引継ぎ IP アドレスが down 状態にならない

    • OS 起動時の物理 IP アドレスを活性化する設定を見直す

    • PingHost を設定するネットワーク経路を見直す

    • OS 起動時の物理 IP アドレスを非活性化する設定を見直す

     

    (DET,6)

    PingHost への ICMP 送受信が正しくできない

    PingHost を設定するネットワーク経路を見直す

     

    (DET,7)

    PingHost への ICMP 送受信が正しくできない

    PingHost を設定するネットワーク経路を見直す

     

    プロシジャ

    (WLT,1)
    (WLT,7)
    (SCR,23)

    時間内に状態遷移プロシジャが完了しない

    時間内に完了しなかった要因を取り除く

    プロシジャ開発者(PRIMECLUSTER対応製品)

    (SCR,9)
    6817

    状態遷移プロシジャが異常終了した

    状態遷移プロシジャが異常終了した原因を取り除く

    Gls

    (SCR,9)

    IP アドレスが重複している

    ifconfig コマンドでインタフェース間の IP アドレスの重複の有無を確認する

     

    (DET,7)

    • ハートビートメッセージが途絶えた

    • ping 監視が無応答

    • システムエラー、資源不足で ping 監視が継続できない

    • dsphanet コマンドで通信相手の状態を確認する

    • 隣接ノードに ping を実行し、通信できるかどうか確認する

    • syslog にメモリ不足やシステムエラーの発生を示すメッセージが出力されていないか確認する

     

    Gds

    (WLT,1)
    (WLT,7)
    (SCR,23)

    Online/Offline 処理中にボリュームの起動・停止処理(sdxvolume -N/-F/-H コマンド)が時間内に完了しない

    • Gds リソースのタイムアウト値を変更している場合は、適切な値であるか確認する

    • タイムアウト値が適切である場合は時間内に完了しない原因を調査する

    当社技術員

    (SCR,9)

    Online/Offline 処理中にボリュームの起動・停止処理(sdxvolume -N/-F/-H コマンド)が異常を通知した

    クラスが閉塞している場合は、"PRIMECLUSTER Global Disk Services 説明書"の"付録F.1.4 クラス状態に関する異常"を参照し対処する

    システム管理者

    クラスが閉塞していない場合は、異常終了した原因を調査する

    当社技術員

    (DET,6)
    (DET,5)
    (DET,24)

    • クラス内の大部分のディスク装置にアクセスできない

    • ノード間の通信エラーが発生した

    • Gds ディテクタ関連コンポーネントの動作不良など

    当社技術員に連絡する

    当社技術員

    (DET,7)

    • クラス内の大部分がディスク装置にアクセスできない

    • ノード間の通信エラーが発生した

    "PRIMECLUSTER Global Disk Services 説明書"の"F.1.4 クラス状態に関する異常"を参照し対処する

    システム管理者

    (DET,2)

    ボリュームを構成する全スライスのディスク装置にアクセスできない

    "PRIMECLUSTER Global Disk Services 説明書"の"F.1.1 スライス状態に関する異常"を参照し対処する

    (DET,35)

    • スライス切離しなどボリュームの多重度が低下する操作を行った。または、等価性コピーが行われた

    • ボリュームを構成するいずれかのスライスのディスク装置にアクセスできない

    • 原因が操作または等価性コピーによるものである場合は、対処不要

    • 原因がディスク装置によるものである場合は、" PRIMECLUSTER Global Disk Services 説明書" の"F.1.1 スライス状態に関する異常" を参照し対処する

    システム管理者


目次 索引 前ページ次ページ

All Rights Reserved, Copyright(C) 富士通株式会社 2009