6.1.18 SYS: SysNode オブジェクト

PRIMECLUSTER 活用ガイド＜メッセージ集＞ (Solaris(TM)オペレーティングシステム／Linux版)

目次索引

第6章 RMS に関するメッセージ

> 6.1 RMSメッセージ

6.1.18 SYS: SysNode オブジェクト

(SYS, 1) Error on SysNode: object. It failed to send the kill success message to the cluster host: host.

[内容]

クラスタノードが停止した場合、停止を要求したノードは稼動中のノードに成功メッセージを送信する必要があります。成功メッセージの送信が失敗すると、switchlog にこのメッセージが出力されます。

[対処]

クラスタおよびネットワークがメッセージを送信できる状態になっていることを確認してください。

(SYS, 8) RMS failed to shut down the host host via a Shutdown Facility, no further kill functionality is available. The cluster is now hung.

[内容]

RMS がシャットダウン機構（SF）に停止要求を送信して、強制停止の応答を受け取らないと、このメッセージが出力されます。

[対処]

CF の状態が LEFTCLUSTER 状態の場合、LEFTCLUSTER 状態を回復してください。LEFTCLUSTER 状態については、"PRIMECLUSTER Cluster Foundation 導入運用手引書" を参照してください。

CF の状態が LEFTCLUSTER 状態でない場合、SysNode の状態を確認してください。

SysNode が Wait 状態の場合は、Wait 状態をクリアしてください。Wait 状態のクリアについては、"PRIMECLUSTER RMS 導入運用手引書" を参照してください。

(SYS, 9) Attempting to shut down the cluster host <hostname > by invoking a Shutdown Facility via (sdtool -k hostname ).

[内容]

Shutdonw Facility 経由で <hostname> の停止を試みています。

[対処]

情報のメッセージのため、対処不要です。

(SYS, 13) Since this host <hostname> has been online for no more than time seconds, and due to the previous error, it will shut down now.

[内容]

このノードのチェックサムがクラスタ内のノードのチェックサムと異なる場合に、このメッセージが出力されます（これは考えられる理由の 1つ）。

[対処]

すべてのクラスタノードで RMS 構成定義ファイルをチェックし、すべてのノードで同じ RMS 構成定義ファイルが稼動していることを確認してください。

(SYS, 14) Neither automatic nor manual switchover will be possible on this host until <detector> detector will report offline or faulted.

[内容]

あるノードが Offline で他のノードが Online のクラスタで、異なる RMS 構成定義ファイルが稼動しているときに、このメッセージが出力されます。

[対処]

1つのクラスタ内で同じ構成を実行するか、異なるクラスタに共通のホストが存在しないようにしてください。

(SYS, 15) The uname() system call returned with Error. RMS will be unable to verify the compliance of the RMS naming convention!

[内容]

uname() システムコールで 0 以外の値が戻ると、このメッセージが出力されます。

[対処]

SysNode 名が有効なことを確認し、必要に応じて RMS を再起動してください。

(SYS, 16) The RMS internal SysNode name <sysnode> is not compliant with the RMS naming convention. A non-compliant setting is possible, but this will cause all RMS commands to accept only the SysNode name, and not the Unix hostname (uname -n), of the cluster nodes.

[内容]

RMS のSysNode 名が<sysnode>RMS という形式ではありません。

[対処]

構成のSysNode 名を<sysnode>RMSに変更してください。

(SYS, 17) The RMS internal SysNode name "sysnode" is ambiguous with the name "name". Please adjust names compliant with the RMS naming convention "SysNode = `uname -n`RMS"

[内容]

RMS の命名規則 sysnodename_ = `uname -n`RMS では、RMS コマンドで SysNode を指定する必要があるときに、後ろの RMS が付く CF 名と付かない cf-name を使用できます。この規則では、ある SysNode の名前が xxxRMS で、別の SysNode の名前が xxx の場合、command xxx がxxxRMS および xxx の両方を指すという曖昧さが発生します。

[対処]

RMS 命名規則に従った名前を使用してください。

(SYS, 18) The SysNode <sysnode> does not follow the RMS naming convention for SysNodes. To avoid seeing this message in the future, rename the SysNode to use the CF-based name of the form "<CFname>RMS" and restart RMS.

[内容]

RMSのSysNode名が<CFname>RMSと一致してません。

[対処]

SysNode 名を<CFname>RMS に変更してください。

(SYS, 33) The RMS cluster host <hostname> does not have a valid entry in the /etc/hosts file. The lookup function gethostbyname failed. Please change the name of the host to a valid /etc/hosts entry and then restart RMS.

[内容]

ファイル /etc/hosts を検索してノード hostname に関する情報を取得する検索関数 gethostbyname で有効なエントリが見つからない場合に、このメッセージが出力されて、RMS が終了コード 114 で終了します。

[対処]

ファイル /etc/hosts にノード hostname の有効なエントリがあることを確認して、RMS を再起動してください。

(SYS, 48) Remote host <hostname> replied the checksum <remotechecksum> which is different from the local checksum <localchecksum>. The sysnode of this host will not be brought online.

[内容]

リモートノード <hostname> とローカルノードで異なる RMS 構成定義ファイルが稼動している場合、またはこれらのノードに異なる RMS パッケージがインストールされている場合に、このメッセージが出力されます。

[対処]

すべてのノードで同じ RMS 構成定義ファイルが稼動していること、およびその RMS 構成定義ファイルがすべてのノードに配布されていることを確認してください。すべてのノードに同じRMS パッケージ（同じリリース）がインストールされていることを確認してください。

(SYS, 49) Since this host <hostname> has been online for more than time seconds, and due to the previous error, it will remain online, but neither automatic nor manual switchover will be possible on this host until <detector> detector will report offline or faulted.

[内容]

[対処]

(SYS, 50) Since this host <hostname> has been online for no more than time seconds, and due to the previous error, it will shut down now.

[内容]

[対処]

(SYS, 52) SysNode sysnode: error creating necessary message queue NODE_REQ_Q...exiting.

[内容]

NODE_REQ_Q の作成時に問題が発生すると、このメッセージが出力されて、RMS が終了コード 12 で終了します。

[対処]

このメッセージを記録して、調査用の情報を採取してください。その後、当社技術員（SE）に連絡してください。調査情報の採取方法については、"PRIMECLUSTER 活用ガイド＜トラブルシューティング編＞" を参照してください。

(SYS, 84) Request <hvshut -a> timed out. RMS will now terminate! Note: some cluster hosts may still be online!

[内容]

hvshut コマンドがデフォルトのタイムアウトに達して、一部のノードがまだ稼動している場合に、このメッセージが出力されます。

[対処]

すべてのノードでシャットダウンが終了するように、RELIANT_SHUT_MIN_WAIT を大きい値に設定して、デフォルトタイマを調整してください。内部の問題がシャットダウン失敗の原因かどうか確認してください。例えば、OfflineScript が失敗すると、クラスタアプリケーションが Offline になりません。

(SYS, 88) のメッセージについて

SYS, 88 のメッセージには、以降に示す数パターンがあります。

表示されたメッセージ文がどれに該当するかを判断し、[内容] と [対処] を確認してください。

SYS, 88 が定期的に発生する場合はその時刻に cron などの自動的な処理により CPU に負荷がかかっている可能性があります。
sar コマンドなどで CPU の負荷を調べた上、CPU 負荷の原因を取り除いてください。

例えば以下の手順のように CPU 負荷の原因を調査してください。

switchlog に SYS, 88 が検出されている時刻を調べるため、以下を実行します。

   #grep "SYS, 88" /var/opt/SMAWRrms/log/switchlog

以下のように出力されました。

   2005-11-17 13:00:00.000:(SYS, 88): WARNING: No heartbeat from cluster host pw400
  -sn03RMS within the last 10 seconds. This may be a temporary problem caused by 
  high system load. RMS will react if this problem persists for 35 seconds more.  
  :====

   2005-11-17 14:00:00.000:(SYS, 88): WARNING: No heartbeat from cluster host pw400
  -sn03RMS within the last 10 seconds. This may be a temporary problem caused by 
  high system load. RMS will react if this problem persists for 35 seconds more.
  :====

   2005-11-17 15:00:00.000:(SYS, 88): WARNING: No heartbeat from cluster host pw400
  -sn03RMS within the last 10 seconds. This may be a temporary problem caused by 
  high system load. RMS will react if this problem persists for 35 seconds more.
  :====

SYS, 88 は 13:00 に発生し、その後 1 時間ごとの「00 分」に出力されています。このような場合、1 時間ごとに起動される処理が本システムで動作している可能性があります。

手順 1.で特定した時刻で以下を実行し、CPU 使用率を調べます。

   #sar -u <時間> <回数>

00 分で 1 時間ごとに起動される処理があると考えられるので、00 分前後（この場合は 10 時）の CPU 使用率を調べます。（Solaris,Linux 共通）

例）Solaris の場合

    # sar -u 1 5

    09:59:56     %usr    %sys    %wio   %idle
    09:59:57       5       2       1      93
    09:59:58       5       2       1      92
    09:59:59       5       3      13      80
    10:00:00       5       3      34      57
    10:00:01       5       2       1      92

    Average        5       2      10      83

例）Linux の場合
    # sar -u 1 5
    09:59:56 AM       CPU     %user     %nice   %system     %idle
    09:59:57 AM       all      5.00      2.00      1.00     93.00
    09:59:58 AM       all      5.00      2.00      1.00     92.00
    09:59:59 AM       all      5.00      3.00     13.00     80.00
    10:00:00 AM       all      5.00      3.00     34.00     57.00
    10:00:01 AM       all      5.00      2.00      1.00     92.00
    Average:          all      5.00      2.40     10.00     82.80
CPU 使用率が SYS, 88 が表示されなかった時刻と比べて著しく高かった場合、その時間の処理が CPU 負荷の原因と考えられます。

この場合、10:00:00 の wio（Solaris の場合）、system（Linux の場合）の CPU 使用率が高いので、この時間の処理が CPU 負荷の原因と考えます。

(SYS, 88): Detected missing heartbeat from cluster host <hostname >. This may be a temporary problem caused by high system load. RMS will react if this problem persists for more than <time > seconds.

(SYS, 88): No heartbeat from cluster host <SysNode > within the last 10 seconds. This may be a temporary problem caused by high system load. RMS will react if this problem persists for <time > seconds more.

[内容]

RMS 間のハートビートが途切れ、<time >秒以上たっても応答がない場合、強制停止を実行します。

[対処]

以下の要因が考えられます。要因に従って対処を行ってください。

クラスタインタコネクトがハード故障により通信ができない。
LAN カード交換、ケーブル交換などを行い、ハード故障の要因を取り除いてください。
RMS がハートビート処理できないほど、システムの CPU 負荷が長時間発生している。
<SysNode > のホストが高負荷となっている処理を見直してください。
NTP で急激な時刻戻しが行われた。
NTP でゆっくりとした時刻合わせを行なってください。

(SYS, 88) Cluster host <hostname > transitioned from online to offline unexpectedly. Allowing <time > more seconds to expire before treacting.

[内容]

クラスタホスト <hostnam > が不意に Online から Offline へ遷移しました。<time > 秒間このまま待ちます。

クラスタホスト <hostname> で異常が発生したか、<hostname> が高負荷状態で 3 秒以上ハートビートをやり取りできない場合に表示されます。

[対処]

強制停止が実行される前に表示される警告です。頻繁に出力されてもノードが強制停止されない場合は、ノード間通信や業務負荷が高いと考えられます。システムの状態を調査分析し、問題を取り除いてください。

(SYS, 90) hostname internal WaitList addition failure! Cannot set timer for delayed detector report action!

[内容]

システムエラー。

[対処]

(SYS, 93) The cluster host nodename is not in the Wait state. The hvutil command request failed!

[内容]

'hvutil' コマンド（hvutil -o または -u）を発行したときに、クラスタノード <nodename> が Wait 状態でないと、このメッセージが出力されます。

[対処]

ノードが Wait 状態のときだけ hvutil -{o, u} を再発行するか、このコマンドを発行しないようにしてください。

(SYS, 94) The last detector report for the cluster host hostname is not online. The hvutil command request failed!

[内容]

コマンド (hvutil -o SysNode) を発行して SysNode の Wait 状態をクリアしても、SysNode が Wait 状態の場合に、このメッセージが出力されます。この原因は、クラスタノード <hostname> に対する最後のディテクタレポートが Online でないことです。つまり、SysNode の状態が Online からではなく他の状態から Wait 状態に変化した可能性があります。

[対処]

ノードが Online 状態から Wait 状態になったときだけ、hvutil -o を発行してください。

(SYS, 97) Cannot access the NET_SEND_Q queue.

[内容]

新しいノードが Online になると、クラスタ内の他のノードは新しいノードが -C オプションで起動されているかどうかを確認します。Online になったノードは NET_SEND_Q キューにより必要な情報を他のノードに送信します。ノードが NET_SEND_Q キューにアクセスできない場合にこのメッセージが出力されます。

[対処]

(SYS, 98) Message send failed in SendJoinOk.

[内容]

新しいノードが Online になると、クラスタ内の他のノードは新しいノードが -C オプションで起動されているかどうかを確認します。Online になったノードは NET_SEND_Q キューにより必要な情報を他のノードに送信します。ノードが他のノードに必要な情報を送信できない場合にこのメッセージが出力されます。

[対処]

ネットワークに問題がないかどうかを確認してください。

(SYS, 100) The value of the attribute <attr> specified for SysNode <sysnode> is <invalidvalue> which is invalid. Ensure that the entry for <attr> is resolvable to a valid address.

[内容]

値 attr が、有効なネットワークアドレスへの名前解決に失敗しました。

[対処]

attr に有効なインタフェースが指定されているかを確認してください。

目次索引