2.2 クラスタアプリケーションの実行

PRIMECLUSTER 活用ガイド＜トラブルシューティング編＞ (Solaris(TM)オペレーティングシステム／Linux版)

目次索引

第1部事象別トラブル

> 第2章クラスタアプリケーションのトラブル

2.2 クラスタアプリケーションの実行

クラスタアプリケーション実行時のトラブルについて対処法を説明します。

■トラブル一覧

No.	現象	Solaris	Linux
Ｑ2-2-1	クラスタアプリケーションがフェイルオーバするが、原因がわからない	○	○
Ｑ2-2-2	引継ぎネットワークリソースを使用するクラスタアプリケーションが Online にならない	○	－
Ｑ2-2-3	リソースの異常発生時、または、ノードの停止時に、クラスタアプリケーションが他ノードにフェイルオーバしない	○	○
Ｑ2-2-4	ノードを起動してもクラスタアプリケーションが Online にならない	○	○
Ｑ2-2-5	Oracle RAC のクラスタアプリケーションが、RMS 起動時に正常に動作しない	○	○
Ｑ2-2-6	hvenv.local ファイルを変更後、RMS が起動できなくなった	○	○
Ｑ2-2-7	RMS のメッセージが syslog に出力される	○	○
Ｑ2-2-8	StandbyTransitions 属性に StartUp が設定されていないクラスタアプリケーションが、RMS の起動時に Standby 状態に遷移した	○	○
Ｑ2-2-9	一定時間内にクラスタアプリケーションが Offline にならない場合、shutdown により自動フェイルオーバしない	○	○
Ｑ2-2-10	クラスタアプリケーションを構成するすべてのノードで RMS が起動しないと、クラスタアプリケーションが自動起動しない	○	○
Ｑ2-2-11	クラスタアプリケーションが Faulted 状態になり、切替えが失敗する	○	○
Ｑ2-2-12	クラスタアプリケーションが Online-Standby にならず、Online-Offline になる	○	○
Ｑ2-2-13	クラスタアプリケーションの状態が Inconsistent になる	○	○
Ｑ2-2-14	移動待機構成においてクラスタアプリケーションの切替えが発生した場合、切替えが発生したアプリ以外の待機が Offline となる	○	○
Ｑ2-2-15	クラスタアプリケーション停止時に、切替えが発生しない	○	○
Ｑ2-2-16	プロシジャリソースに登録しているアプリケーションのプロセスを強制停止させても、プロセスが再起動しない（状態遷移も行われない）	○	○
Ｑ2-2-17	プロセス監視リソースを定義したクラスタアプリケーションを起動したところ、コンソールに 2207 番のメッセージが表示され、Faulted 状態になった	○	－
Ｑ2-2-18	クラスタアプリケーションの AutoSwitchOver 属性に "ShutDown" を設定しているにもかかわらず、ノードをシャットダウンさせてもクラスタアプリケーションのフェイルオーバが行われない	○	○
Ｑ2-2-19	Fsystem リソースのリソース故障が発生しましたというメッセージが出力され、クラスタアプリケーションがフェイルオーバしたが原因がわからない	○	○
Ｑ2-2-20	Fsystem リソースが故障となりフェイルオーバした際に、切替え先でもリソース故障が発生する	○	○
Ｑ2-2-21	両ノードを再起動した際、本来は運用系ノードで Online 状態になるクラスタアプリケーションが、待機系ノードで Online 状態になった	○	○
Ｑ2-2-22	Cmdline リソースの状態が Standby にならない	○	○
Ｑ2-2-23	Cmdline リソースを設定したクラスタアプリケーションの起動に失敗する	○	○
Ｑ2-2-24	userApplication に AutoSwitchOver 属性を設定しているにも関わらず、切替えが実行されない	○	○
Ｑ2-2-25	2:1運用待機のクラスタ構成で、Oracle と ListManagerを別々のクラスタアプリケーションで起動させたときに、Oracle の起動が完了する前に ListManager の起動が開始し、Oracle への接続エラーとなり起動に失敗する	○	－
Ｑ2-2-26	ファイルシステムのマウントに失敗し、クラスタアプリケーションが起動できない	○	－
Ｑ2-2-27	クラスタ環境を NFS サーバとして使用し、NFS クライアントから NFS マウントを行っているまま userApplication を待機系へ切替えた後、NFS クライアントで NFS マウントが正しく行われない	○	－
Ｑ2-2-28	Oracle リソースに異常が発生し、クラスタアプリケーションが Faulted 状態になる	○	○
Ｑ2-2-29	クラスタアプリケーションが両ノードで Faulted 状態となる	○	－
Ｑ2-2-30	共用ディスクを追加し、Fsystem リソースのマウントポイントに追加後、クラスタアプリケーションが起動できない	○	○
Ｑ2-2-31	Fsystem リソースの Online 処理が失敗する	○	○
Ｑ2-2-32	クラスタに登録されているアプリケーションを起動すると、アプリケーション起動時に設定している環境変数LANG=jaが有効にならない	○	○

Ｑ2-2-1 クラスタアプリケーションがフェイルオーバするが、原因がわからない

原因

運用中に意図的に停止するようなプロセスを check スクリプトで監視すると、プロセスが終了した場合にフェイルオーバが発生します。

対処

check スクリプトで監視しているプロセスは、クラスタフアプリケーションの offline 処理で停止してください。

確認事項

フェイルオーバが発生した場合、原因となったリソースに関係するログファイルを確認してください。

ログファイルの参照方法については、"第9章 RMS に関するトラブル情報の収集" を参照してください。

Cmdline リソースの場合、check スクリプトで監視しているプロセスが異常終了した原因を確認し、そのプロシジャが正常に動作するかプログラムの見直しを行ってください。プロセス監視リソースに障害が発生した場合は、監視しているプログラムが異常終了した原因を確認してください。Gds リソース、Gls リソースに障害が発生した場合は、それぞれの機能のマニュアルを参照してエラーの原因を確認してください。

なお、フェイルオーバにより、待機ノードが運用となり、業務が継続して運用可能な状態であれば、PRIMECLUSTER としては正常動作です。

Ｑ2-2-2 引継ぎネットワークリソースを使用するクラスタアプリケーションが、Online にならない

現象

引継ぎネットワークリソースを使用するクラスタアプリケーションを構築したが、クラスタアプリケーションを起動すると、IP アドレスの Online 処理に失敗して Online にならない。このとき switchlog には以下のメッセージが出力されていた。

ERROR: There is no interface interface in /usr/opt/reliant/etc/hvipalias, aborting startup.: ====
(SCR, 9): ERROR: FAULT REASON: failed to execute script <PreCheckScript> with resource <app1>: Exited with a non-zero code: 1

原因

/opt/SMAW/SMAWRrms/etc/hvipalias ファイルに引継ぎネットワークリソースに使用するインタフェースが登録されていない可能性が考えられます。

"PRIMECLUSTER RMS 導入運用手引書" を参照して hvipalias ファイルに使用するインタフェー

スを登録してください。

Ｑ2-2-3 リソースの異常発生時、または、ノードの停止時に、クラスタアプリケーションが他ノードにフェイルオーバしない

原因

クラスタアプリケーションの AutoSwitchOver 属性に適切な値が設定されていないことが原因です。

対処

userApplication Configuration Wizard または RMS Wizard Tool を使用して該当のクラスタアプリケーションに適切な AutoSwitchOver 属性を設定してください。AutoSwitchOver 属性の詳細については、以下のマニュアルを参照してください。

■Solaris

"PRIMECLUSTER 導入運用手引書" の "6.6.5 属性の説明"

■Linux

"PRIMECLUSTER 導入運用手引書" の "6.7.5 属性の説明"

Ｑ2-2-4 ノードを起動してもクラスタアプリケーションが Online にならない

原因

RMS 環境変数 HV_RCSTART が 0 に設定されている、または、クラスタアプリケーションのAutoStartUp 属性が Yes に設定されていない可能性があります。

対処

ノード起動時に RMS を自動起動させるために、/opt/SMAW/SMAWRrms/bin/hvenv.local ファイルに export HV_RCSTART=1 を設定するか、HV_RCSTART の設定を削除します。

また、RMS 起動時に、クラスタアプリケーションが自動的に online にさせるために、userApplication Configuration Wizard または RMS Wizard Tool を使用してクラスタアプリケーションの AutoStartUp 属性を Yes に設定します。

ノード起動時にクラスタアプリケーションを自動的に起動する場合には、上記の両方を設定してください。

Ｑ2-2-5 Oracle RAC のクラスタアプリケーションが、RMS 起動時に正常に動作しない

現象

Oracle RAC のクラスタアプリケーションにおいて、RMS を起動すると AutoStartUp 属性が No にもかかわらず、その subApplication が Online になった。一方クラスタアプリケーションは Online にはならず、Inconsistent となった。

原因

RMS を起動する前に、RAC を Oracle のコマンドを使用して直接起動していたことが原因です。

Oracle を起動する場合は、必ず RMS のコマンド (hvswitch(1M)) を使用してください。

Ｑ2-2-6 hvenv.local ファイルを変更後、RMS が起動できなくなった

現象

hvenv.local ファイルを変更後、RMS が起動できなくなった。このとき switchlog に以下のメッセージが出力されていた。
(ADC, 3): ERROR: Remote host <nodename> reported the checksum (X) which is different from the local checksum (Y).

原因

原因として以下の可能性が考えられます。

RMS のグローバル環境変数の設定がノード間で異なる。
hvenv.local を修正した後、すべてのノードで RMS を再起動していない。
異なる RMS 構成情報を指定して RMS を実行している。

対処

すべてのノードの hvenv.local ファイルに記載されている RMS グローバル環境変数の設定が同じかどうかを確認し、すべてのノードで RMS を再起動してください。その際、同一の RMS 構成情報を指定してください。

Ｑ2-2-7 RMS のメッセージが syslog に出力される
(WRP, 28): ERROR: RMS monitor has encountered an irregular sequence of timer interrupts, off by _OFFSET_ seconds.

原因

NTP による時刻同期が異常になっていることが考えられます。

対処

RMS は、タイマ割込みが毎秒発生することをチェックしています。時刻変更によりタイマの割込み間隔が不規則になると、本メッセージが出力されることがあります。NTP の設定を見直してください。

Ｑ2-2-8 StandbyTransitions 属性に StartUp が設定されていないクラスタアプリケーションが、RMS の起動時に Standby 状態に遷移した

原因

クラスタアプリケーションの StandbyTransitions 属性に StartUp が設定されていない場合にも、AutoStarUp 属性が Yes に設定されている場合は、RMS 起動時にクラスタアプリケーションが Standby 状態に遷移します。

対処

Cluster Admin の RMS メインウィンドウから [Offline (hvutil -f)] を実行するか、hvutil(1M) コマンドを-f オプションで実行して、Standby 状態に遷移したアプリケーションを Offline 状態にしてください。

Ｑ2-2-9 一定時間内にクラスタアプリケーションが Offline にならない場合、shutdown により自動フェイルオーバしない

原因

shutdown による自動フェイルオーバをしない原因としては、RMS の環境変数 RELIANT_SHUT_MIN_WAIT の値が少ないことが考えられます。クラスタアプリケーションの Offline 処理が正常に終了するのに必要な時間を見積もり、RMS 環境変数 RELIANT_SHUT_MIN_WAIT に設定してください。

対処

クラスタアプリケーションの AutoSwitchOver 属性に Shutdown を定義することで、クラスタアプリケーションはshutdown を契機にフェイルオーバします。しかし、RMS の環境変数 RELIANT_SHUT_MIN_WAIT の値(デフォルト 150 秒)以内にクラスタアプリケーションが Offline 状態にならない場合は、RMS の強制停止処理が実行され、shutdown はするものの、クラスタアプリケーションは自動フェイルオーバしません。この場合、以下のように、hvshut コマンドがタイムアウトしたため RMS を強制停止する旨のメッセージが /var/adm/messages(Solaris)、あるいは /var/log/messages(Linux) に出力されます。

[/var/adm/messages] または [/var/log/messages]

scfreport shutdown was executed.

(SWT, 42): NOTICE: hvshut -l has been invoked on host fuji2RMS.

(ADM, 103): NOTICE: app1: Shutdown in progress. AutoSwitchOver (ShutDown) attribute is set, invoking
a switchover to next priority host

(US, 18): NOTICE: app1: starting Offline processing.

(ADC, 51): WARNING: hvshut utility has timed out.

(ADC, 52): NOTICE: Waiting for application <app1> to finish its <RequestOffline> before shutdown.

(ADM, 101): NOTICE: Processing forced shutdown request for node fuji2RMS.

(BM, 48): NOTICE: RMS monitor has been normally shut down.

クラスタアプリケーションの Offline 処理が正常に終了するのに必要な時間を見積もり、RMS 環境変数 RELIANT_SHUT_MIN_WAIT に設定してください。

Ｑ2-2-10 クラスタアプリケーションを構成するすべてのノードでRMSが起動しないと、クラスタアプリケーションが自動起動しない

原因

クラスタアプリケーションの AutoStartUp 属性に1を定義することで、クラスタアプリケーションは RMS の起動を契機に自動起動します。しかし、クラスタアプリケーションを構成するすべてのノードで RMS が起動しないと、クラスタアプリケーションは自動起動しません。RMS の HV_AUTOSTART_WAIT 環境変数の値(デフォルト 60 秒)以内にクラスタアプリケーションを構成するすべてのノードの RMS が起動しないと、/var/adm/messages(Solaris)、あるいは /var/log/messages(Linux) に以下の警告メッセージが出力されます。

[/var/adm/messages] または [/var/log/messages]

(SWT, 27): NOTICE: Cluster host <fuji3RMS> is not yet online for application <app1>.

(SWT, 1): WARNING: The 'AutoStartUp' attribute is set and the HV_AUTOSTART_WAIT time for the user
application <app1> has expired, without an automatic start up having yet taken place. Reason: not
all necessary cluster hosts are online!

本メッセージが出力された後もクラスタアプリケーションを構成するすべてのノードで RMS の起動の待合せ処理は継続されます。残りのノードで RMS が起動した時点で、クラスタアプリケーションは自動起動します。

保守のために、ノードを一時的にクラスタから除外する必要がある場合は、RMS の HV_AUTOSTARTUP_IGNORE 環境変数に、クラスタから除外するノードをリストアップしてください。これにより、リストアップされているノードでの RMS の起動を待ち合わせることなくクラスタアプリケーションを自動起動することができます。

Ｑ2-2-11 クラスタアプリケーションが Faulted 状態になり、切替えが失敗する

原因

クラスタノードの他に、GLS 高速切替方式を使用している通信相手ノードが存在しない可能性があります。

対処

GLS 高速切替方式を使用している場合、クラスタシステムで使用しているノード以外に、GLS 高速切替方式が設定されている通信相手ノードが別途必要です。

詳細は、"PRIMECLUSTER GLS 説明書(伝送路二重化機能編)" の "5.1 クラスタシステムへの対応概要" に記載されている、注意事項を参照してください。

通信相手ノードの設定については、"B.1.1 シングルシステムによる設定例" を参照してください。

確認事項

GLS 高速切替方式を使用しているクラスタノードの他に、GLS 高速切替方式を使用している通信相手ノードがありますか?

Ｑ2-2-12 クラスタアプリケーションが Online-Standby にならず、Online-Offline になる

原因１

RMS Wizard のクラスタアプリケーションのリソース設定にて、STANDBYCAPABLE が設定されていない可能性があります。

対処１

クラスタアプリケーションを Online-Standby 運用する場合、STANDBYCAPABLE の設定が必要です。

■Solaris の場合

Cmdline リソースを使用する場合、設定の詳細は "PRIMECLUSTER 導入運用手引書" の "6.6.1.1 Cmdlineリソースの設定" を参照してください。

プロシジャリソースを使用する場合、設定の詳細は "PRIMECLUSTER 導入運用手引書" の "6.6.1.6 プロシジャリソースの設定" を参照してください。

■Linuxの場合

Cmdline リソースを使用する場合、設定の詳細は "PRIMECLUSTER 導入運用手引書" の "6.7.3.1 Cmdlineリソースの設定" を参照してください。

プロシジャリソースを使用する場合、設定の詳細は "PRIMECLUSTER 導入運用手引書" の "6.7.3.6 プロシジャリソースの設定" を参照してください。

確認事項１

RMS Wizard のクラスタアプリケーションのリソース設定にて、STANDBYCAPABLE は設定されていますか?

原因２

Cmdline のリソースの設定にて、ALLEXITCODES が設定されていない可能性があります。

対処２

Cmdline リソースを使用したクラスタアプリケーションを Online-Standby 運用する場合、ALLEXITCODES の設定が必要です。

■Solaris の場合

設定の詳細は "PRIMECLUSTER 導入運用手引書" の "6.6.1.1 Cmdlineリソースの設定" を参照してください。

■Linux の場合

設定の詳細は "PRIMECLUSTER 導入運用手引書" の "6.7.3.1 Cmdlineリソースの設定" を参照してください。

確認事項２

Cmdline リソースを使用している場合、リソースの設定にて ALLEXITCODES は設定されていますか?

原因３

RMS Wizard のクラスタアプリケーションの設定にて、StandbyTransitions が設定されていない可能性があります。

対処３

クラスタアプリケーションを Online-Standby 運用する場合、StandbyTransitions の設定が必要です。詳細については以下を参照してください。

■Solaris の場合

"PRIMECLUSTER 導入運用手引書" の "6.6.2.1 スタンバイ運用のクラスタアプリケーション作成"

■Linux の場合

"PRIMECLUSTER 導入運用手引書" の "6.7.2.1 スタンバイ運用のクラスタアプリケーション作成"

確認事項３

RMS Wizard のクラスタアプリケーションの設定にて、StandbyTransitions は設定されていますか?

原因４

2 ノードの相互待機構成で業務優先度を設定している場合、クラスタアプリケーションはOnline-Offline になります。これは PRIMECLUSTER の仕様です。

対処４

2 ノードの相互待機構成でクラスタアプリケーションを Online-Standby 状態で使用する場合は、業務優先度を設定を解除してください。詳細については以下を参照してください。

■Solaris の場合

"PRIMECLUSTER 導入運用手引書" の "6.6.3.1 クラスタアプリケーションの排他関係を設定する"

■Linux の場合

"PRIMECLUSTER 導入運用手引書" の "6.7.2.1 スタンバイ運用のクラスタアプリケーション作成"

確認事項４

2 ノードの相互待機構成で、業務優先度を設定していませんか?

Ｑ2-2-13 クラスタアプリケーションの状態がInconsistent になる

原因

クラスタアプリケーションの起動前にリソースが Online になっている場合、クラスタリソースの状態に矛盾が発生し、クラスタアプリケーションが Inconsistent になる可能性があります。

例えば、ClusterExclusive 属性が "1" に設定されているリソースが、クラスタアプリケーションを起動する前に待機系で Online 状態になっている場合に、クラスタアプリケーションを起動するとクラスタアプリケーションの状態が Inconsistent と表示されます。

対処

矛盾が発生する要因は、クラスタアプリケーション起動前にリソースが Online になっていることです。

Gds リソースを設定している場合、クラスタアプリケーションの起動前に Gds リソースが活性化されている可能性があります。

Solaris の場合は、"PRIMECLUSTER 導入運用手引書" の "6.6.1.3 Gds リソースの作成" で、ディスククラスの用途が排他使用 ”する”と設定されているかどうか確認してください。

また、Gds リソースの設定を CUI で行った場合は、設定前に hvgdsetup コマンドを実行したかどうか確認してください。

Linux の場合は、Gds リソース設定前に hvgdsetup コマンドを実行したかどうか確認してください。詳細は "PRIMECLUSTER 導入運用手引書" の "6.7.3.3 Gds リソースの設定" を参照してください。

Ｑ2-2-14 移動待機構成においてクラスタアプリケーションの切替えが発生した場合、切替えが発生したアプリ以外の待機が Offline となる

原因

PRIMECLUSTER の仕様です。移動待機構成において、クラスタアプリケーションの切替えが発生した場合、待機ノードにて切替えが発生したアプリケーション以外のアプリケーション状態が Standby にならず、Offline となります。

詳細は、"PRIMECLUSTER 導入運用手引書" の "2.3.1 スタンバイ運用" を参照してください。

Ｑ2-2-15 クラスタアプリケーション停止時に、切替えが発生しない

原因

アプリケーションの状態を監視する Cmdline リソースの Check スクリプトが作成されていない可能性があります。

対処

Check スクリプトがない場合、アプリケーションの状態 (正常状態、sleep 状態、ハング状態等) を判断することができません。このため、アプリケーションが異常停止しても、クラスタインタコネクトのハートビートが正常に行われている間は切替えが発生しません。

このような状態を回避するため、アプリケーションの状態を監視する Check スクリプトを別途作成し、Cmdline リソースに設定する必要があります。

Check スクリプトの作成方法については、"PRIMECLUSTER 活用ガイド＜クラスタ構築・運用時の留意点＞" を参照してください。

確認事項

アプリケーションの状態を監視する Check スクリプトを作成していますか?

Ｑ2-2-16 プロシジャリソースに登録しているアプリケーションのプロセスを強制停止させても、プロセスが再起動しない（状態遷移も行われない）

原因

プロシジャリソースで登録されているアプリケーションのプロセスを停止させても状態遷移は発生しません。また、プロセスを再起動するといった処理も行いません。Procesure リソースでは、状態遷移の指示タイミングにて exitcode がエラーになった場合にリソースの異常、状態遷移が発生します。

対処

プロシジャリソースは "PRIMECLUSTER 導入運用手引書" の "PRIMECLUSTER 対応製品一覧表" に記載されている製品をリソース登録する場合に使用されます。

それ以外のアプリケーションをクラスタアプリケーションとして登録したい場合は、Cmdline リソースを使用してください。

また、プロセスの生存監視を行いたい場合は、プロセス監視リソースを使用してください。

Ｑ2-2-17 プロセス監視リソースを定義したクラスタアプリケーションを起動したところ、コンソールに 2207 番のメッセージが表示され、Faulted 状態になった

原因

プロセス監視リソースの設定画面 ("PRIMECLUSTER 導入運用手引書" の "6.6.1.7.3 設定方法" を参照)において、起動後直ちに終了してしまうプログラムを起動コマンドに指定したことが考えられます。

例えば、以下の例のような複数のプログラムを起動し、自身は直ちに終了するスクリプトを前述の起動コマンドに指定した場合、プロセス監視リソースを定義したクラスタアプリケーションはその Online 処理に失敗し Faulted 状態になります。

#!/bin/sh

/opt/bin/process0 &

/opt/bin/process1 &

/opt/bin/process2 &

exit 0

プロセス監視機能は、クラスタアプリケーションに対する Online 指示が発行された際、前述の起動コマンドに指定されたプログラムを生存監視対象として認識しそれを起動しようとします。

しかし、前述の例のようにそれが起動後直ちに終了してしまうスクリプトであった場合、プロセス監視機能から見ると、生存監視対象が起動後に突然終了したように見えてしまうため、プロセス監視リソースに異常が発生したと判断し当該リソースを Faulted 状態にします。

対処

前述の起動コマンドに指定できるのは、起動後に動作し続けるプログラムです。

例えば前述の例において process0、process1、process2 が起動後に動作し続けるプログラムであり、それらの生存状態をプロセス監視機能によって監視した場合、それらを別々のプロセス監視リソースとして定義し、各起動コマンドには process0、process1、process2 をそれぞれ指定してください。

Ｑ2-2-18 クラスタアプリケーションの AutoSwitchOver 属性に "ShutDown" を設定しているにもかかわらず、ノードをシャットダウンさせてもクラスタアプリケーションのフェイルオーバが行われない

原因

クラスタアプリケーションが Fault 状態となっている可能性があります。

対処

クラスタアプリケーションが Fault となった原因を確認し、Fault 状態をクリアしてからシャットダウンを行ってください。

Ｑ2-2-19 Fsystem リソースのリソース故障が発生しましたというメッセージが出力され、クラスタアプリケーションがフェイルオーバしたが原因がわからない

原因１

Fsystem リソースで監視しているマウントポイント名が、リネームされた可能性があります。

対処１

Fsystem リソースで監視しているマウントポイントは、リネームしないでください。

マウントポイント名を変更する際は、RMS を停止して Fsystem リソースの再作成を行ってください。

原因２

/etc/vfstab (Solaris) または /etc/fstab (Linux) に記載されている Fsystem リソースが使用するエントリ情報が、両ノードで異なっている可能性があります。

対処２

userApplication を構成するすべてのクラスタノードの /etc/vfstab (Solaris) または /etc/fstab (Linux) ファイルへ、マウントポイントのエントリを追加してください。

Ｑ2-2-20 Fsystem リソースが故障となりフェイルオーバした際に、切替え先でもリソース故障が発生する

原因

Fsystem リソースの Online 処理(マウント処理)に失敗し、fsck が ScriptTimeout 属性の値の範囲で処理が完了しなかったためにリソース故障が発生している可能性があります。

対処

環境に合わせて、ScriptTimeout の値をチューニングしてください。

Ｑ2-2-21 両ノードを再起動した際、本来は運用系ノードで Online 状態になるクラスタアプリケーションが、待機系ノードで Online 状態になった

原因

再起動前にクラスタアプリケーションが運用系ノードで Faulted となっている場合、Faulted 状態をクリアせず、PersistentFault が有効であると、システムが再起動されても Faulted 状態が継続されるため、待機系ノードが Online となります。

対処

Faulted 状態をクリアしてから、再起動を行なってください。

Ｑ2-2-22 Cmdline リソースの状態がStandbyにならない

原因１

Cmdline リソースの Flag である ALLEXITCODES が "Yes" に設定されていない可能性があります。

対処１

Cmdline リソースの Flag である ALLEXITCODES を "Yes" に設定してください。

原因２

Offline 処理にて、Cmdline リソースが "unknown" 状態を返していたため、次の Standby 処理が実行できない可能性があります。

対処２

Cmdline リソースの Check スクリプトが "unknown" 状態から "Offline" 状態を返すことができるように Check スクリプトの条件に合わせて環境を見直してください。

Ｑ2-2-23 Cmdline リソースを設定したクラスタアプリケーションの起動に失敗する

原因

Cmdline リソースの Online スクリプトが異常終了しているためクラスタアプリケーションが起動しなかった可能性があります。

対処

実行時に異常になった、Cmdline リソースの各種スクリプトを見直してください。

また、手動でスクリプトを実行し、正常に動作する場合は、手動で実行している場合と、実行権限、環境変数等の違いが考えられます。

Ｑ2-2-24 userApplication に AutoSwitchOver 属性を設定しているにも関わらず、切替えが実行されない

原因

HaltFlag 属性の値が "No"(Solaris)、Halt 属性が "0"(Linux) の場合で、ダブルフォルトが発生した場合は、SF(Shutdown Facility) からの強制停止、強制停止後の切替え処理も実行されません。

対処

HaltFlag 属性の値を "Yes" に設定してください (Solaris)。Halt 属性を "1" に設定してください (Linux)。

Ｑ2-2-25 2:1運用待機のクラスタ構成で、Oracle と ListManager を別々のクラスタアプリケーションで起動させたときに、Oracle の起動が完了する前に ListManager の起動が開始し、Oracle への接続エラーとなり起動に失敗する

原因

2:1 運用待機構成で、Oracle のリソース (Wizard for Oracle) と ListManager のリソース (cmdline リソース) が、別々のクラスタアプリケーションに登録されているために、起動順番が保障できない設定となっています。

対処

Oracle のリソースと ListManager のリソースを同一のクラスタアプリケーションとして登録してください。

Ｑ2-2-26 ファイルシステムのマウントに失敗し、クラスタアプリケーションが起動できない

原因

ファイルシステムに不整合が生じているため、ファイルシステムのマウントに失敗し、クラスタアプリケーションの起動が行えない可能性があります。

対処

fsck を実行し、ファイルシステムの修復を行った後にクラスタアプリケーションを起動してください。

【コマンド実行例】

  # fsck -F ufs -y /dev/sfdsk/class0001/rdsk/volume0001

Ｑ2-2-27 クラスタ環境を NFS サーバとして使用し、NFS クライアントから NFS マウントを行っているまま userApplication を待機系へ切替えた後、NFS クライアントで NFS マウントが正しく行われない

原因

NFS クライアントから NFS マウント時に使用される Fsystem リソースと Gls リソースが異なる userApplication に登録されている可能性があります。

対処

NFS マウントで使用される Fsystem リソースと、Gls リソースを 1 つの userApplication に登録してください。

Ｑ2-2-28 Oracle リソースに異常が発生し、クラスタアプリケーションが Faulted 状態になる

原因

Oracle が使用しているファイルシステムへアーカイブファイルが出力される等の理由で、ファイルシステムがいっぱいになっている可能性があります。

対処

Oracle が使用しているファイルシステムから不要なファイルを削除してください。

Ｑ2-2-29 クラスタアプリケーションが両ノードで Faulted 状態となる

原因

1 つの NIC に対し、引継ぎネットワークリソースと GLS の設定が行われているため、引継ぎネットワークリソースの活性化に失敗している可能性があります。

対処

引継ぎネットワークリソースと、GLS で使用する NIC を別々の NIC に分けて再設定してください。

Ｑ2-2-30 共用ディスクを追加し、Fsystem リソースのマウントポイントに追加後、クラスタアプリケーションが起動できない

原因

追加したマウントポイントのファイルシステムが作成されていない可能性があります。

対処

手動でマウントを行い、ファイルシステムが作成されているかどうか確認し、作成されていない場合はファイルシステムを作成してください。

Ｑ2-2-31 Fsystem リソースの Online 処理が失敗する

原因

Fsystem リソースに設定されたマウントポイントに、ファイルシステムが作成されていない可能性があります。

対処

Fsystem リソースに設定されたマウントポイントにファイルシステムを作成してください。

Ｑ2-2-32クラスタに登録されているアプリケーションを起動すると、アプリケーション起動時に設定している環境変数LANG=jaが有効にならない

原因

PRIMECLUSTER では RMS 起動時に、環境変数 LANG=C,LC_ALL=C を設定しており、ロケールの設定でLANGよりLC_ALLの設定が優先されるためです。

対処

ロケールの設定を行いたい場合は、Cmdline リソースのスクリプト内で環境変数 LC_ALLの設定を行ってください。ロケールの設定方法の詳細については、各OSのマニュアルを参照してください。

目次索引

2.2 クラスタアプリケーションの実行

■トラブル一覧

Ｑ2-2-1 クラスタアプリケーションがフェイルオーバするが、原因がわからない

原因

対処

確認事項

Ｑ2-2-2 引継ぎネットワークリソースを使用するクラスタアプリケーションが、Online にならない

現象

原因

Ｑ2-2-3 リソースの異常発生時、または、ノードの停止時に、クラスタアプリケーションが他ノードにフェイルオーバしない

原因

対処

Ｑ2-2-4 ノードを起動してもクラスタアプリケーションが Online にならない

原因

対処

Ｑ2-2-5 Oracle RAC のクラスタアプリケーションが、RMS 起動時に正常に動作しない

現象

原因

Ｑ2-2-6 hvenv.local ファイルを変更後、RMS が起動できなくなった

現象

原因

対処

Ｑ2-2-7 RMS のメッセージが syslog に出力される (WRP, 28): ERROR: RMS monitor has encountered an irregular sequence of timer interrupts, off by _OFFSET_ seconds.

原因

対処

Ｑ2-2-8 StandbyTransitions 属性に StartUp が設定されていないクラスタアプリケーションが、RMS の起動時に Standby 状態に遷移した

原因

対処

Ｑ2-2-9 一定時間内にクラスタアプリケーションが Offline にならない場合、shutdown により自動フェイルオーバしない

原因

対処

Ｑ2-2-10 クラスタアプリケーションを構成するすべてのノードでRMSが起動しないと、クラスタアプリケーションが自動起動しない

原因

Ｑ2-2-11 クラスタアプリケーションが Faulted 状態になり、切替えが失敗する

原因

対処

確認事項

Ｑ2-2-12 クラスタアプリケーションが Online-Standby にならず、Online-Offline になる

原因１

対処１

確認事項１

原因２

対処２

確認事項２

原因３

対処３

確認事項３

原因４

対処４

確認事項４

Ｑ2-2-13 クラスタアプリケーションの状態がInconsistent になる

原因

対処

Ｑ2-2-14 移動待機構成においてクラスタアプリケーションの切替えが発生した場合、切替えが発生したアプリ以外の待機が Offline となる

原因

Ｑ2-2-15 クラスタアプリケーション停止時に、切替えが発生しない

原因

対処

確認事項

Ｑ2-2-16 プロシジャリソースに登録しているアプリケーションのプロセスを強制停止させても、プロセスが再起動しない（状態遷移も行われない）

原因

対処

Ｑ2-2-17 プロセス監視リソースを定義したクラスタアプリケーションを起動したところ、コンソールに 2207 番のメッセージが表示され、Faulted 状態になった

原因

対処

Ｑ2-2-18 クラスタアプリケーションの AutoSwitchOver 属性に "ShutDown" を設定しているにもかかわらず、ノードをシャットダウンさせてもクラスタアプリケーションのフェイルオーバが行われない

原因

対処

Ｑ2-2-19 Fsystem リソースのリソース故障が発生しましたというメッセージが出力され、クラスタアプリケーションがフェイルオーバしたが原因がわからない

原因１

対処１

原因２

対処２

Ｑ2-2-20 Fsystem リソースが故障となりフェイルオーバした際に、切替え先でもリソース故障が発生する

原因

対処

Ｑ2-2-21 両ノードを再起動した際、本来は運用系ノードで Online 状態になるクラスタアプリケーションが、待機系ノードで Online 状態になった

原因

対処

Ｑ2-2-22 Cmdline リソースの状態がStandbyにならない

Ｑ2-2-7 RMS のメッセージが syslog に出力される
(WRP, 28): ERROR: RMS monitor has encountered an irregular sequence of timer interrupts, off by _OFFSET_ seconds.