Oracle インスタンスリソース異常によるリソースの AutoRecover や userApplication のフェイルオーバ、または縮退が発生した場合のトラブル事例です。
[ケース1] (スタンバイ、Oracle RAC スケーラブル、シングルノードクラスタ)
アーカイブログ領域不足のため、監視用 SQL によるデータ更新処理がハングアップした場合に、リソース異常となる場合があります。
その後 userApplication がフェイルオーバしてもフェイルオーバ先の待機ノードでも共用ディスク上の領域不足により Oracle データベースの起動に失敗するため、最終的に両系停止となり業務が停止する場合があります。
Oracle データベースのアラート・ファイル等を確認し、参考となる情報が記録されていないか確認してください。
以下の手順でアーカイブログをバックアップし、ディスク容量を確保してください。
両ノードで、RMSを停止します。
# hvshut -a
運用ノードで、アーカイブログ領域が格納されているボリュームをマウントします。
zpoolを使用する場合
# sdxvolume -N -c <クラス名> # zpool import -d /dev/sfdsk/<クラス名>/dsk <マウントポイント>
zpoolを使用しない場合
# sdxvolume -N -c <クラス名> -v <ボリューム名> # mount -F ufs /dev/sfdsk/<クラス名>/dsk/<ボリューム名> <マウントポイント>
2.でマウントしたマウントポイントに移動し、アーカイブログ領域をバックアップしてください。
# cd <マウントポイント> # mv ./<アーカイブログ領域>/<アーカイブファイル> /<退避先>/.
2.でマウントした領域をアンマウントします。
zpoolを使用する場合
# cd / # zpool export <マウントポイント> # sdxvolume -F -c <クラス名>
zpoolを使用しない場合
# cd / # umount <マウントポイント> # sdxvolume -F -c <クラス名> -v <ボリューム名>
任意の1ノードで hvcm コマンドを実行し、すべてのノードのRMSを起動します。
# hvcm -a
クラスタアプリケーション の Faulted 状態をクリアします。
# hvutil -c <userApplication名>
任意の1ノードで hvswitch コマンドを実行し、クラスタアプリケーションを起動します。
# hvswitch <userApplication名> <SysNode名>
[ケース2] (スタンバイ、Oracle RAC スケーラブル、シングルノードクラスタ)
監視タイムアウトが2回連続して発生した場合にリソース異常となります。
syslog に “ERROR: 0226: Watch Timeout occurred” が出力されていれば該当します。
Oracle データベース側からの調査・対処を行ってください。
PRIMECLUSTER Wizard for Oracle による Oracle インスタンスの監視では、Oracle インスタンスから一定時間応答がなかった場合は「監視タイムアウト」と判断します。1回目の監視タイムアウトでは、Warning 状態となるだけでリソース異常にはなりませんが、これが2回連続して発生した場合、リソース異常と判断します。