PRIMECLUSTER 活用ガイド <クラスタ構築・運用時の留意点> (Solaris(TM)オペレーティングシステム/Linux版) |
目次
索引
![]() ![]() |
第2部 運用編 | > 第7章 リソースの監視と故障検出 |
本節では、リソース故障が発生した場合の検出方法と、対処方法について説明します。
運用中にリソース故障が発生した場合、以下の手順にしたがって故障箇所と故障原因を特定し対処してください。
表7.2 に示したメッセージが表示されているかを確認します。
故障検出箇所 |
異常発生箇所 |
出力されるメッセージ |
---|---|---|
Online 処理の異常 |
スクリプトタイムアウト |
(WLT, 1): ERROR: REASON: リソース名's OnlineScript (スクリプト) has exceeded the ScriptTimeout of タイムアウト seconds. (WLT, 7): NOTICE: Sending SIGTERM to script <スクリプト名> (プロセスID) now (SCR, 23): NOTICE: The script with pid <プロセスID> has terminated. The time it has spent in the user and kernel space is <> and <> seconds respectively. |
スクリプト異常終了 |
(SCR, 9): ERROR: REASON: failed to execute script <OnlineScript> with resource <リソース名>: Exited with a non-zero code: 復帰値 FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition procedure execution.(procedure file exit erro procedure: XXXX detail:XXXX-XXXX-XXXX-XXXX) |
|
ディテクタが Online を通知しない |
(DET, 6): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource failing to come Online after running its OnlineScript <スクリプト名>. |
|
Offline 処理の異常 |
スクリプトタイムアウト |
(WLT, 1): ERROR: REASON: リソース名's OfflineScript (スクリプト) has exceeded the ScriptTimeout of タイムアウト seconds. (WLT, 7): NOTICE: Sending SIGTERM to script <スクリプト名> (プロセスID) now (SCR, 23): NOTICE: The script with pid <プロセスID> has terminated. The time it has spent in the user and kernel space is <> and <> seconds respectively. |
スクリプト異常終了 |
(SCR, 9): ERROR: REASON: failed to execute script <OnlineScript> with resource <リソース名>: Exited with a non-zero code: 復帰値 FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition procedure execution.(procedure file exit erro procedure XXXX detail:XXXX- XXXX-XXXX-XXXX) |
|
ディテクタが Offline を通知しない |
(DET, 5): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource failing to come Offline after running its OfflineScript <スクリプト名>. |
|
Standby 処理の異常 |
スクリプトタイムアウト |
(WLT, 1): ERROR: REASON: リソース名's OnlineScript (スクリプト) has exceeded the ScriptTimeout of タイムアウト seconds. (WLT, 7): NOTICE: Sending SIGTERM to script <スクリプト名> (プロセスID) now (SCR, 23): NOTICE: The script with pid <プロセスID> has terminated. The time it has spent in the user and kernel space is <> and <> seconds respectively. |
スクリプト異常終了 |
(SCR, 9): ERROR: REASON: failed to execute script <OnlineScript> with resource <リソース名>: Exited with a non-zero code: 復帰値 FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition procedure execution.(procedure file exit erro procedure: XXXX detail:XXXX- XXXX-XXXX-XXXX) |
|
ディテクタが Standby を通知しない |
(DET, 24): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource failing to come Standby after running its OnlineScript <スクリプト名>. |
|
通常運用時の異常 |
userApplication が Online 状態のときにディテクタが Offline を通知 |
(DET, 7): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource unexpectedly becoming g Offline. |
userApplication が Standby 状態のときにディテクタが Offline を通知 |
||
userApplication が Online 状態のときにディテクタが Fault を通知 |
(DET, 2): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to a detector report. |
|
userApplication が Standby 状態のときにディテクタが Fault を通知 |
||
Uap が Online 状態のときにディテクタが Warning を通知 |
(DET, 35) : WARNING: Resource <リソース名> received detector report "DetReportsOnlineWarn", the WarningScript is not defined and will not be run. |
|
Uap が Standby 状態のときにディテクタが Warning を通知 |
注:メッセージの詳細については、「PRIMECLUSTER 活用ガイド <メッセージ集>」を参照してください。
該当するメッセージが表示されていたら、メッセージ内のリソース名あるいはメッセージ本文によって異常が発生したリソースを特定します。
故障リソースの判定方法は以下のとおりです。
リソース名 |
リソース |
---|---|
"ManageProgram"で始まる |
Cmdline |
"MountPoint"で始まる |
Fsystem |
"Interface"で始まる |
Ipaddress |
FJSVclusterの“6817"メッセージ |
プロシジャ |
PRIMECLUSTER GDS で管理されるクラス名で始まる |
Gds |
"Ipaddress"で始まる |
Gls |
故障リソースが特定できたら、表7.4 にしたがって対処します。
リソース |
メッセージ |
主な故障要因 |
対処方法 |
対処者 |
---|---|---|---|---|
Cmdline |
(WLT,1) |
時間内に start/stop スクリプトが完了しない |
処理の妥当性を確認する |
スクリプト作成者 |
(SCR,9) |
|
|
||
(DET,6) |
Start スクリプトは正常終了しているが Check スクリプトが復帰値 =0(Online) 以外を通知した |
Check スクリプトの復帰値で 0(Online) を通知しない箇所を確認する |
||
(DET,5) |
Stop スクリプトは正常終了しているが Check スクリプトが復帰値 =1(Offline) 以外を通知した |
Check スクリプトの復帰値で 1(Offline) を通知しない箇所を確認する |
||
(DET,24) |
Start スクリプトは正常終了しているが Check スクリプトが復帰値 =4(Standby) 以外を通知した |
Check スクリプトの復帰値で 4(Standby) 通知しない箇所を確認する |
||
(DET,7) |
userApplication がonline あるいは Standby 状態のときに Check スクリプトが復帰値 =1(Offline) を通知した |
Check スクリプトの復帰値で 1(Offline) を通知する箇所を確認する |
||
(DET,2) |
userApplication が online あるいは Standby 状態のときに Check スクリプトが復帰値 =2(Faulted) を通知した |
Check スクリプトの復帰値で 2(Faulted) を通知する箇所を確認する |
||
Fsystem |
(WLT,1) |
|
|
当社技術員 |
(SCR,9) |
|
|
システム管理者 |
|
(DET,5) |
ディスクに異常がありファイルシステムへアクセスできない |
異常が発生しているディスク装置を交換する |
当社技術員 |
|
(DET,7) |
|
|
当社技術員 システム管理者 |
|
引継ぎ IP (IPaddress) |
(WLT,1) |
|
|
システム管理者 |
(SCR,9) |
|
|
|
|
(DET,6) |
PingHost への ICMP 送受信が正しくできない |
PingHost を設定するネットワーク経路を見直す |
|
|
(DET,7) |
PingHost への ICMP 送受信が正しくできない |
PingHost を設定するネットワーク経路を見直す |
|
|
プロシジャ |
(WLT,1) |
時間内に状態遷移プロシジャが完了しない |
時間内に完了しなかった要因を取り除く |
プロシジャ開発者(PRIMECLUSTER対応製品) |
(SCR,9) |
状態遷移プロシジャが異常終了した |
状態遷移プロシジャが異常終了した原因を取り除く |
||
Gls |
(SCR,9) |
IP アドレスが重複している |
ifconfig コマンドでインタフェース間の IP アドレスの重複の有無を確認する |
|
(DET,7) |
|
|
||
Gds |
(WLT,1) |
Online/Offline 処理中にボリュームの起動・停止処理(sdxvolume -N/-F/-H コマンド)が時間内に完了しない |
|
当社技術員 |
(SCR,9) |
Online/Offline 処理中にボリュームの起動・停止処理(sdxvolume -N/-F/-H コマンド)が異常を通知した |
クラスが閉塞している場合は、"PRIMECLUSTER Global Disk Services 説明書"の"付録F.1.4 クラス状態に関する異常"を参照し対処する |
システム管理者 |
|
クラスが閉塞していない場合は、異常終了した原因を調査する |
当社技術員 |
|||
(DET,6) |
|
当社技術員に連絡する |
当社技術員 |
|
(DET,7) |
|
"PRIMECLUSTER Global Disk Services 説明書"の"F.1.4 クラス状態に関する異常"を参照し対処する |
システム管理者 |
|
(DET,2) |
ボリュームを構成する全スライスのディスク装置にアクセスできない |
"PRIMECLUSTER Global Disk Services 説明書"の"F.1.1 スライス状態に関する異常"を参照し対処する |
||
(DET,35) |
|
|
システム管理者 |
目次
索引
![]() ![]() |