クラスタ運用時に発生したトラブルの事例、およびその対処方法について説明します。
クラスタ構成時にqdg12673uまたはqdg13960wのメッセージが出力される
クラスタ構成時には、Symfowareの無応答状態を検知するために、Symfoware Serverの監視プロセスから定期的に稼働確認が行われます。監視プロセスからの稼働確認に対して一定時間内に応答がない場合、Symfowareが無応答状態にあると判断します。
バッチ処理やアクセス集中のためサーバの負荷が高い状態になると、稼働監視に対する応答が遅れ、誤って無応答状態と判断されて以下のようなエラーメッセージが出力されることがあります。
rdbhsrscコマンドのfオプションでfailoverを指定した場合
qdg12673u: RDBIIシステムからの応答が指定した待ち時間を超えました
rdbhsrscコマンドのfオプションでmessageを指定した場合
qdg13960w: RDBシステムからの応答が指定したタイムアウト時間を超えました
クラスタ構成時には、Symfoware Serverの監視プロセスが無応答状態を判断するタイムアウト時間の設定をチューニングする必要があります。タイムアウト時間の省略値は0、すなわち無応答監視を行わない設定となります。
rdbhsrscコマンドのtオプションでタイムアウト時間、rオプションでタイムアウトチェック回数を変更してください。変更手順は次のとおりです。
Solaris/Linuxの場合
クラスタアプリケーションおよびRMSを停止
rdbhsrscコマンドで値の変更
クラスタアプリケーションおよびRMSを再起動
Windowsの場合
クラスタサービスを停止
rdbhsrscコマンドで値の変更
クラスタサービスを再起動
タイムアウト時間を800秒、チェック回数を10回に変更する場合
rdbhsrsc -u -t 800 -r 10
タイムアウト時間を長くすることにより、無応答状態の誤判断を防げます。ただし、長くしすぎると無応答状態の検知に時間がかかってしまうので、注意してください。
参照
クラスタシステム構築の詳細については、“クラスタ導入運用ガイド”を参照してください。