7.2 リソース故障と対処方法

PRIMECLUSTER 活用ガイド＜クラスタ構築・運用時の留意点＞（Solaris(TM)オペレーティングシステム／Linux版）

目次索引

第2部運用編

> 第7章リソースの監視と故障検出

7.2 リソース故障と対処方法

本節では、リソース故障が発生した場合の検出方法と、対処方法について説明します。

運用中にリソース故障が発生した場合、以下の手順にしたがって故障箇所と故障原因を特定し対処してください。

表7.2 に示したメッセージが表示されているかを確認します。

[表7.2 リソース故障の判定方法]

故障検出箇所	異常発生箇所	出力されるメッセージ
Online 処理の異常	スクリプトタイムアウト	(WLT, 1): ERROR: REASON: リソース名's OnlineScript (スクリプト) has exceeded the ScriptTimeout of タイムアウト seconds. (WLT, 7): NOTICE: Sending SIGTERM to script <スクリプト名> (プロセスID) now (SCR, 23): NOTICE: The script with pid <プロセスID> has terminated. The time it has spent in the user and kernel space is <> and <> seconds respectively.
	スクリプト異常終了	(SCR, 9): ERROR: REASON: failed to execute script <OnlineScript> with resource <リソース名>: Exited with a non-zero code: 復帰値 FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition procedure execution.(procedure file exit erro procedure:　XXXX detail:XXXX-XXXX-XXXX-XXXX)
	ディテクタが Online を通知しない	(DET, 6): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource failing to come Online after running its OnlineScript <スクリプト名>.
Offline 処理の異常	スクリプトタイムアウト	(WLT, 1): ERROR: REASON: リソース名's OfflineScript (スクリプト) has exceeded the ScriptTimeout of タイムアウト seconds. (WLT, 7): NOTICE: Sending SIGTERM to script <スクリプト名> (プロセスID) now (SCR, 23): NOTICE: The script with pid <プロセスID> has terminated. The time it has spent in the user and kernel space is <> and <> seconds respectively.
	スクリプト異常終了	(SCR, 9): ERROR: REASON: failed to execute script <OnlineScript> with resource <リソース名>: Exited with a non-zero code: 復帰値 FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition procedure execution.(procedure file exit erro procedure　XXXX detail:XXXX-　XXXX-XXXX-XXXX)
	ディテクタが Offline を通知しない	(DET, 5): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource failing to come Offline after running its OfflineScript <スクリプト名>.
Standby 処理の異常	スクリプトタイムアウト	(WLT, 1): ERROR: REASON: リソース名's OnlineScript (スクリプト) has exceeded the ScriptTimeout of タイムアウト seconds. (WLT, 7): NOTICE: Sending SIGTERM to script <スクリプト名> (プロセスID) now (SCR, 23): NOTICE: The script with pid <プロセスID> has terminated. The time it has spent in the user and kernel space is <> and <> seconds respectively.
	スクリプト異常終了	(SCR, 9): ERROR: REASON: failed to execute script <OnlineScript> with resource <リソース名>: Exited with a non-zero code: 復帰値 FJSVcluster: ERROR: clexecproc: 6817: An error occurred during state transition procedure execution.(procedure file exit erro procedure:　XXXX detail:XXXX-　XXXX-XXXX-XXXX)
	ディテクタが Standby を通知しない	(DET, 24): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource failing to come Standby after running its OnlineScript <スクリプト名>.
通常運用時の異常	userApplication が Online 状態のときにディテクタが Offline を通知	(DET, 7): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to the resource unexpectedly becoming g Offline.
	userApplication が Standby 状態のときにディテクタが Offline を通知
	userApplication が Online 状態のときにディテクタが Fault を通知	(DET, 2): ERROR: FAULT REASON: Resource <リソース名> transitioned to a Faulted state due to a detector report.
	userApplication が Standby 状態のときにディテクタが Fault を通知
	Uap が Online 状態のときにディテクタが Warning を通知	(DET, 35) : WARNING: Resource <リソース名> received detector report "DetReportsOnlineWarn", the WarningScript is not defined and will not be run.
	Uap が Standby 状態のときにディテクタが Warning を通知

注：メッセージの詳細については、「PRIMECLUSTER 活用ガイド <メッセージ集>」を参照してください。

該当するメッセージが表示されていたら、メッセージ内のリソース名あるいはメッセージ本文によって異常が発生したリソースを特定します。

故障リソースの判定方法は以下のとおりです。

[表7.3 リソースの判定方法]

リソース名	リソース
"ManageProgram"で始まる	Cmdline
"MountPoint"で始まる	Fsystem
"Interface"で始まる	Ipaddress
FJSVclusterの“6817"メッセージ	プロシジャ
PRIMECLUSTER GDS で管理されるクラス名で始まる	Gds
"Ipaddress"で始まる	Gls

故障リソースが特定できたら、表7.4 にしたがって対処します。

[表7.4 リソース故障と対処方法]

リソース	メッセージ	主な故障要因	対処方法	対処者
Cmdline	(WLT,1) (WLT,7) (SCR,23)	時間内に start/stop スクリプトが完了しない	処理の妥当性を確認する妥当な処理であればタイムアウト値を変更する妥当な処理でなければ時間のかかる要因を確認し取り除く	スクリプト作成者
	(SCR,9)	Start/stop スクリプトが異常値を通知したスクリプトに実行権がない	スクリプトの復帰値で異常を通知する箇所を取り除くスクリプトの実行権を付与する
	(DET,6)	Start スクリプトは正常終了しているが Check スクリプトが復帰値 =0(Online) 以外を通知した	Check スクリプトの復帰値で 0(Online) を通知しない箇所を確認する
	(DET,5)	Stop スクリプトは正常終了しているが Check スクリプトが復帰値 =1(Offline) 以外を通知した	Check スクリプトの復帰値で 1(Offline) を通知しない箇所を確認する
	(DET,24)	Start スクリプトは正常終了しているが Check スクリプトが復帰値 =4(Standby) 以外を通知した	Check スクリプトの復帰値で 4(Standby) 通知しない箇所を確認する
	(DET,7)	userApplication がonline あるいは Standby 状態のときに Check スクリプトが復帰値 =1(Offline) を通知した	Check スクリプトの復帰値で 1(Offline) を通知する箇所を確認する
	(DET,2)	userApplication が online あるいは Standby 状態のときに Check スクリプトが復帰値 =2(Faulted) を通知した	Check スクリプトの復帰値で 2(Faulted) を通知する箇所を確認する
Fsystem	(WLT,1) (WLT,7) (SCR,23)	Online 処理中に fsck 処理に時間を要している Fsystem をマウントしているプロセスが存在する	Fsystem リソースのタイムアウト値を見直し、適切な値に変更する Fsystem をマウントしているプロセスを確認し、プロセスを起動しないように見直してください	当社技術員
	(SCR,9)	ファイルシステムが作成されていないマウントポイントのパスが作成されていない /etc/vfstab にマウントポイントに関する情報がない /etc/vfstab の情報に誤りがある /etc/dfs/dfstab が設定されていない	ファイルシステムを作成するパスを作成する /etc/vfstab にマウントポイントに関する情報を追加する /etc/vfstab の情報を確認し、見直す /etc/dfs/dfstab の情報が設定する	システム管理者
	(DET,5)	ディスクに異常がありファイルシステムへアクセスできない	異常が発生しているディスク装置を交換する	当社技術員
	(DET,7)	ディスクに異常がありファイルシステムへアクセスできないファイルシステムがアンマウントされた share 状態が正しく認識できない	異常が発生しているディスク装置を交換するアンマウントしてるプロセスを確認し、見直すクラスタ動作中に unshare された可能性があるため、unshare された原因を確認する	当社技術員システム管理者
引継ぎ IP (IPaddress)	(WLT,1) (WLT,7) (SCR,23)	引継ぎIPの名前解決ができない /etc/hostname.<interface>の情報に誤りがある	/etc/nsswitch.confの記載順を見直す /etc/hostname.<interface>を見直す	システム管理者
	(SCR,9)	引継ぎ IP アドレスが up 状態にならない PingHost への ICMP 送受信が正しくできない引継ぎ IP アドレスが down 状態にならない	OS 起動時の物理 IP アドレスを活性化する設定を見直す PingHost を設定するネットワーク経路を見直す OS 起動時の物理 IP アドレスを非活性化する設定を見直す
	(DET,6)	PingHost への ICMP 送受信が正しくできない	PingHost を設定するネットワーク経路を見直す
	(DET,7)	PingHost への ICMP 送受信が正しくできない	PingHost を設定するネットワーク経路を見直す
プロシジャ	(WLT,1) (WLT,7) (SCR,23)	時間内に状態遷移プロシジャが完了しない	時間内に完了しなかった要因を取り除く	プロシジャ開発者(PRIMECLUSTER対応製品)
プロシジャ	(SCR,9) 6817	状態遷移プロシジャが異常終了した	状態遷移プロシジャが異常終了した原因を取り除く	プロシジャ開発者(PRIMECLUSTER対応製品)
Gls	(SCR,9)	IP アドレスが重複している	ifconfig コマンドでインタフェース間の IP アドレスの重複の有無を確認する
Gls	(DET,7)	ハートビートメッセージが途絶えた ping 監視が無応答システムエラー、資源不足で ping 監視が継続できない	dsphanet コマンドで通信相手の状態を確認する隣接ノードに ping を実行し、通信できるかどうか確認する syslog にメモリ不足やシステムエラーの発生を示すメッセージが出力されていないか確認する
Gds	(WLT,1) (WLT,7) (SCR,23)	Online/Offline 処理中にボリュームの起動・停止処理（sdxvolume -N/-F/-H コマンド）が時間内に完了しない	Gds リソースのタイムアウト値を変更している場合は、適切な値であるか確認するタイムアウト値が適切である場合は時間内に完了しない原因を調査する	当社技術員
	(SCR,9)	Online/Offline 処理中にボリュームの起動・停止処理（sdxvolume -N/-F/-H コマンド）が異常を通知した	クラスが閉塞している場合は、"PRIMECLUSTER Global Disk Services 説明書"の"付録F.1.4　クラス状態に関する異常"を参照し対処する	システム管理者
	(SCR,9)		クラスが閉塞していない場合は、異常終了した原因を調査する	当社技術員
	(DET,6) (DET,5) (DET,24)	クラス内の大部分のディスク装置にアクセスできないノード間の通信エラーが発生した Gds ディテクタ関連コンポーネントの動作不良など	当社技術員に連絡する	当社技術員
	(DET,7)	クラス内の大部分がディスク装置にアクセスできないノード間の通信エラーが発生した	"PRIMECLUSTER Global Disk Services 説明書"の"F.1.4 クラス状態に関する異常"を参照し対処する	システム管理者
	(DET,2)	ボリュームを構成する全スライスのディスク装置にアクセスできない	"PRIMECLUSTER Global Disk Services 説明書"の"F.1.1 スライス状態に関する異常"を参照し対処する	システム管理者
	(DET,35)	スライス切離しなどボリュームの多重度が低下する操作を行った。または、等価性コピーが行われたボリュームを構成するいずれかのスライスのディスク装置にアクセスできない	原因が操作または等価性コピーによるものである場合は、対処不要原因がディスク装置によるものである場合は、" PRIMECLUSTER Global Disk Services 説明書" の"F.1.1 スライス状態に関する異常" を参照し対処する	システム管理者

目次索引