PRIMECLUSTER 活用ガイド <メッセージ集> (Solaris(TM)オペレーティングシステム/Linux版) |
目次
索引
![]() ![]() |
第6章 RMS に関するメッセージ | > 6.1 RMSメッセージ |
クラスタノードが停止した場合、停止を要求したノードは稼動中のノードに成功メッセージを送信する必要があります。成功メッセージの送信が失敗すると、switchlog にこのメッセージが出力されます。
クラスタおよびネットワークがメッセージを送信できる状態になっていることを確認してください。
RMS がシャットダウン機構(SF)に停止要求を送信して、強制停止の応答を受け取らないと、このメッセージが出力されます。
CF の状態が LEFTCLUSTER 状態の場合、LEFTCLUSTER 状態を回復してください。LEFTCLUSTER 状態については、"PRIMECLUSTER Cluster Foundation 導入運用手引書" を参照してください。
CF の状態が LEFTCLUSTER 状態でない場合、SysNode の状態を確認してください。
SysNode が Wait 状態の場合は、Wait 状態をクリアしてください。Wait 状態のクリアについては、"PRIMECLUSTER RMS 導入運用手引書" を参照してください。
Shutdonw Facility 経由で <hostname> の停止を試みています。
情報のメッセージのため、対処不要です。
このノードのチェックサムがクラスタ内のノードのチェックサムと異なる場合に、このメッセージが出力されます(これは考えられる理由の 1つ)。
すべてのクラスタノードで RMS 構成定義ファイルをチェックし、すべてのノードで同じ RMS 構成定義ファイルが稼動していることを確認してください。
あるノードが Offline で他のノードが Online のクラスタで、異なる RMS 構成定義ファイルが稼動しているときに、このメッセージが出力されます。
1つのクラスタ内で同じ構成を実行するか、異なるクラスタに共通のホストが存在しないようにしてください。
uname() システムコールで 0 以外の値が戻ると、このメッセージが出力されます。
SysNode 名が有効なことを確認し、必要に応じて RMS を再起動してください。
RMS のSysNode 名が<sysnode>RMS という形式ではありません。
構成のSysNode 名を<sysnode>RMSに変更してください。
RMS の命名規則 sysnodename_ = `uname -n`RMS では、RMS コマンドで SysNode を指定する必要があるときに、後ろの RMS が付く CF 名と付かない cf-name を使用できます。この規則では、ある SysNode の名前が xxxRMS で、別の SysNode の名前が xxx の場合、command xxx がxxxRMS および xxx の両方を指すという曖昧さが発生します。
RMS 命名規則に従った名前を使用してください。
RMSのSysNode名が<CFname>RMSと一致してません。
SysNode 名を<CFname>RMS に変更してください。
ファイル /etc/hosts を検索してノード hostname に関する情報を取得する検索関数 gethostbyname で有効なエントリが見つからない場合に、このメッセージが出力されて、RMS が終了コード 114 で終了します。
ファイル /etc/hosts にノード hostname の有効なエントリがあることを確認して、RMS を再起動してください。
リモートノード <hostname> とローカルノードで異なる RMS 構成定義ファイルが稼動している場合、またはこれらのノードに異なる RMS パッケージがインストールされている場合に、このメッセージが出力されます。
すべてのノードで同じ RMS 構成定義ファイルが稼動していること、およびその RMS 構成定義ファイルがすべてのノードに配布されていることを確認してください。すべてのノードに同じRMS パッケージ(同じリリース)がインストールされていることを確認してください。
このノードのチェックサムがクラスタ内のノードのチェックサムと異なる場合に、このメッセージが出力されます(これは考えられる理由の 1つ)。
すべてのクラスタノードで RMS 構成定義ファイルをチェックし、すべてのノードで同じ RMS 構成定義ファイルが稼動していることを確認してください。
このノードのチェックサムがクラスタ内のノードのチェックサムと異なる場合に、このメッセージが出力されます(これは考えられる理由の 1つ)。
すべてのクラスタノードで RMS 構成定義ファイルをチェックし、すべてのノードで同じ RMS 構成定義ファイルが稼動していることを確認してください。
NODE_REQ_Q の作成時に問題が発生すると、このメッセージが出力されて、RMS が終了コード 12 で終了します。
このメッセージを記録して、調査用の情報を採取してください。その後、当社技術員(SE)に連絡してください。調査情報の採取方法については、"PRIMECLUSTER 活用ガイド<トラブルシューティング編>" を参照してください。
hvshut コマンドがデフォルトのタイムアウトに達して、一部のノードがまだ稼動している場合に、このメッセージが出力されます。
すべてのノードでシャットダウンが終了するように、RELIANT_SHUT_MIN_WAIT を大きい値に設定して、デフォルトタイマを調整してください。内部の問題がシャットダウン失敗の原因かどうか確認してください。 例えば、OfflineScript が失敗すると、クラスタアプリケーションが Offline になりません。
SYS, 88 のメッセージには、以降に示す数パターンがあります。
表示されたメッセージ文がどれに該当するかを判断し、[内容] と [対処] を確認してください。
SYS, 88 が定期的に発生する場合はその時刻に cron などの自動的な処理により CPU に負荷がかかっている可能性があります。
sar コマンドなどで CPU の負荷を調べた上、CPU 負荷の原因を取り除いてください。
例えば以下の手順のように CPU 負荷の原因を調査してください。
#grep "SYS, 88" /var/opt/SMAWRrms/log/switchlog
以下のように出力されました。
2005-11-17 13:00:00.000:(SYS, 88): WARNING: No heartbeat from cluster host pw400 -sn03RMS within the last 10 seconds. This may be a temporary problem caused by high system load. RMS will react if this problem persists for 35 seconds more. :==== 2005-11-17 14:00:00.000:(SYS, 88): WARNING: No heartbeat from cluster host pw400 -sn03RMS within the last 10 seconds. This may be a temporary problem caused by high system load. RMS will react if this problem persists for 35 seconds more. :==== 2005-11-17 15:00:00.000:(SYS, 88): WARNING: No heartbeat from cluster host pw400 -sn03RMS within the last 10 seconds. This may be a temporary problem caused by high system load. RMS will react if this problem persists for 35 seconds more. :====
SYS, 88 は 13:00 に発生し、その後 1 時間ごとの「00 分」に出力されています。このような場合、1 時間ごとに起動される処理が本システムで動作している可能性があります。
#sar -u <時間> <回数>
00 分で 1 時間ごとに起動される処理があると考えられるので、00 分前後(この場合は 10 時)の CPU 使用率を調べます。(Solaris,Linux 共通)
例)Solaris の場合
# sar -u 1 5
09:59:56 %usr %sys %wio %idle 09:59:57 5 2 1 93 09:59:58 5 2 1 92 09:59:59 5 3 13 80 10:00:00 5 3 34 57 10:00:01 5 2 1 92 Average 5 2 10 83
例)Linux の場合# sar -u 1 509:59:56 AM CPU %user %nice %system %idle 09:59:57 AM all 5.00 2.00 1.00 93.00 09:59:58 AM all 5.00 2.00 1.00 92.00 09:59:59 AM all 5.00 3.00 13.00 80.00 10:00:00 AM all 5.00 3.00 34.00 57.00 10:00:01 AM all 5.00 2.00 1.00 92.00 Average: all 5.00 2.40 10.00 82.80CPU 使用率が SYS, 88 が表示されなかった時刻と比べて著しく高かった場合、その時間の処理が CPU 負荷の原因と考えられます。
この場合、10:00:00 の wio(Solaris の場合)、system(Linux の場合)の CPU 使用率が高いので、この時間の処理が CPU 負荷の原因と考えます。
RMS 間のハートビートが途切れ、<time >秒以上たっても応答がない場合、強制停止を実行します。
以下の要因が考えられます。要因に従って対処を行ってください。
LAN カード交換、ケーブル交換などを行い、ハード故障の要因を取り除いてください。
<SysNode > のホストが高負荷となっている処理を見直してください。
NTP でゆっくりとした時刻合わせを行なってください。
クラスタホスト <hostnam > が不意に Online から Offline へ遷移しました。<time > 秒間このまま待ちます。
クラスタホスト <hostname> で異常が発生したか、<hostname> が高負荷状態で 3 秒以上ハートビートをやり取りできない場合に表示されます。
強制停止が実行される前に表示される警告です。頻繁に出力されてもノードが強制停止されない場合は、ノード間通信や業務負荷が高いと考えられます。システムの状態を調査分析し、問題を取り除いてください。
システムエラー。
このメッセージを記録して、調査用の情報を採取してください。その後、当社技術員(SE)に連絡してください。調査情報の採取方法については、"PRIMECLUSTER 活用ガイド<トラブルシューティング編>" を参照してください。
'hvutil' コマンド(hvutil -o または -u)を発行したときに、クラスタノード <nodename> が Wait 状態でないと、このメッセージが出力されます。
ノードが Wait 状態のときだけ hvutil -{o, u} を再発行するか、このコマンドを発行しないようにしてください。
コマンド (hvutil -o SysNode) を発行して SysNode の Wait 状態をクリアしても、SysNode が Wait 状態の場合に、このメッセージが出力されます。この原因は、クラスタノード <hostname> に対する最後のディテクタレポートが Online でないことです。つまり、SysNode の状態が Online からではなく他の状態から Wait 状態に変化した可能性があります。
ノードが Online 状態から Wait 状態になったときだけ、hvutil -o を発行してください。
新しいノードが Online になると、クラスタ内の他のノードは新しいノードが -C オプションで起動されているかどうかを確認します。Online になったノードは NET_SEND_Q キューにより必要な情報を他のノードに送信します。ノードが NET_SEND_Q キューにアクセスできない場合にこのメッセージが出力されます。
このメッセージを記録して、調査用の情報を採取してください。その後、当社技術員(SE)に連絡してください。調査情報の採取方法については、"PRIMECLUSTER 活用ガイド<トラブルシューティング編>" を参照してください。
新しいノードが Online になると、クラスタ内の他のノードは新しいノードが -C オプションで起動されているかどうかを確認します。Online になったノードは NET_SEND_Q キューにより必要な情報を他のノードに送信します。ノードが他のノードに必要な情報を送信できない場合にこのメッセージが出力されます。
ネットワークに問題がないかどうかを確認してください。
値 attr が、有効なネットワークアドレスへの名前解決に失敗しました。
attr に有効なインタフェースが指定されているかを確認してください。
目次
索引
![]() ![]() |