3.3 CF に関するトラブル

PRIMECLUSTER 活用ガイド＜トラブルシューティング編＞ (Solaris(TM)オペレーティングシステム／Linux版)

目次索引

第1部事象別トラブル

> 第3章運用時のトラブル

3.3 CF に関するトラブル

CF に関するトラブルシューティングについて説明します。

メッセージの出力先は、使用する OS によって異なります。

Solaris の場合：/var/adm/messages
Linux の場合：/var/log/messages

本節では、特に断りのない限り Solaris のメッセージファイル名を記載しています。

■トラブル一覧

No.	現象	Solaris	Linux
Ｑ3-3-1	ノードがクラスタに参入できない	○	○
Ｑ3-3-2	システム起動時、/var/log/messages ファイルに以下の警告メッセージが出力される場合がある Warning!!! net_device size is different	－	○
Ｑ3-3-3	運用中に /var/adm/messages ファイルに以下のメッセージが出力される場合がある cf:mipc:ib_available gethostbyname: No such file or directory	○	○
Ｑ3-3-4	PRIMECLUSTER 環境で、XSCF にてサーバが認識できない	○	－
Ｑ3-3-5	Auto negotiation を使用しているインタコネクトデバイスについて、cftool -d で表示される speed が、実際の speed と異なることがあるまたは、クラスタインタコネクトにギガビットイーサネットを使用しているにもかかわず、cftool -d で表示される speed が、"100" で表示される	○	○
Ｑ3-3-6	Cluster Admin の CF メインウィンドウにてリモートデバイスとローカルデバイスが UNKNOWN となる	○	○
Ｑ3-3-7	Cluster Admin の CF メインウィンドウで、相手ノードの状態が "UNKNOWN" と表示される	○	○
Ｑ3-3-8	cfconfig コマンドで CF のシャットダウンを行うと、以下のメッセージが表示され CF がシャットダウンできない cfconfig: cannot unload: #0406: generic: resource is busy および cfconfig: check if dependent service-layer module(s) active	○	○
Ｑ3-3-9	Cluster Admin GUI で CF の起動を行うと、以下のメッセージが出力され、GFS の起動に失敗する ERROR: sfcfsrm:0011: Starting the sfcfrmd daemon failed because quorum does not exist	○	○
Ｑ3-3-10	ciptool が実行できない	－	○

Ｑ3-3-1 ノードがクラスタに参入できない

対処

"3.7 ノードの参入に関するトラブル" を参照して、システムの状態を確認してください。

Ｑ3-3-2 システム起動時、/var/log/messages ファイルに以下の警告メッセージが出力される場合がある
　　　　　Warning!!! net_device size is different

対処

動作に問題はありませんので、対処の必要はありません。本メッセージを無視してください。

Ｑ3-3-3 運用中に /var/adm/messages ファイルに以下のメッセージが出力される場合がある
　　　　　cf:mipc:ib_available gethostbyname: No such file or directory

原因

ノード名（uname -nの出力）と CF ノード名が異なる場合、CF ノード名は /etc/inet/hosts（Solaris）または /etc/hosts（Linux）に存在しないため、本デバッグメッセージが出力されます。

対処

本メッセージは保守用のメッセージであり、動作に問題はありませんので、対処の必要はありません。本メッセージを無視してください。

デバッグメッセージを非表示にするには、/etc/inet/hosts（Solaris）または /etc/hosts（Linux）に CF ノード名を記述してください。

Ｑ3-3-4 PRIMECLUSTER 環境で、XSCF にてサーバが認識できない

原因

クラスタサーバと XSCF の IP アドレスのセグメントが異なっている可能性があります。

対処

クラスタサーバと XSCF の IP アドレスのセグメントが異なるとシャットダウン機構を使用することができません。クラスタサーバと XSCF の IP アドレスを同一セグメントにしてください。

Ｑ3-3-5 Auto negotiation を使用しているインタコネクトデバイスについて、cftool -d で表示される speed が、実際の speed と異なることがある
または、クラスタインタコネクトにギガビットイーサネットを使用しているにもかかわず、cftool -d で表示される speed が、"100" で表示される

説明

cftool -d で表示される speed は、必ずしもその時のデバイスの speed と一致するとは限りません。

対処

/var/adm/messages ファイルおよびコンソールに出力されているシステム起動時のメッセージを参照し、該当のデバイスがアップされる際に表示される speed を確認してください。

    [/var/adm/messages]

     fjgi0: network connection up

         autonegotiation: on

         speed:           1000

Ｑ3-3-6 Cluster Admin の CF メインウィンドウにてリモートデバイスとローカルデバイスが UNKNOWN となる

現象

Cluster Admin の CF メインウィンドウで、リモートデバイスとローカルデバイスに UNKNOWN と表示される。

Cluster Admin の CF メインウィンドウにて、左パネルツリーの CF ノード名をクリックし表示されるノードの詳細画面において、"ルート" のリモートデバイスとローカルデバイスが UNKNOWN となる場合があります。

原因

Cluster Admin の障害です。

対処

Cluster Admin のパッチを適用してください。

なお、以下のコマンドを実行することで正しい状態を確認することができます。

# /opt/SMAW/SMAWcf/bin/cftool -d

Ｑ3-3-7 Cluster Admin の CF メインウィンドウで、相手ノードの状態が "UNKNOWN" と表示される

原因

全クラスタインタコネクト間の通信ができないために相手ノードの状態が認識できず、"UNKNOWN" と表示されています。

対処

すべてのクラスタインタコネクト間の通信が可能な状態にし、すべてのノードを再起動してください。

Ｑ3-3-8 cfconfig コマンドで CF のシャットダウンを行うと、以下のメッセージが表示され CF がシャットダウンできない
cfconfig: cannot unload: #0406: generic: resource is busy および cfconfig: check if dependent service-layer module(s) active

原因

PRIMECLUSTER 階層型サービスの CF リソースが稼働中であるか、PRIMECLUSTER 階層型サービスに CF リソースの割り当てが行われている場合にエラーとなります。

対処

RMS、SIS、OPS、CIP などを停止させてから CF をアンロードする必要があります。個々の製品の停止方法については、製品の README を参照してください。システムログファイルに以下の詳細エラーメッセージも出力されます。

    OSDU_stop: failed to unload cf_drv

システムを再起動しているシャットダウンスクリプトが cfconfig コマンドを呼び出すという特別な場合には、以下のエラーメッセージがシステムログファイルに出力されます。

    OSDU_stop: runlevel now n: sent EVENT_NODE_LEAVING_CLUSTER (#xxxx)
    cfconfig: cannot unload: #0423: generic: permission denied

CF のシャットダウンでエラーが発生しました。通常、このエラーメッセージは権限のないユーザが CF を停止させようとした場合に出力されます。CF の起動、停止、および構成はシステム管理者権限で実行してください。システムログファイルに以下の詳細エラーメッセージも出力されます。

    OSDU_stop: failed to open /dev/cf (EACCES)

Ｑ3-3-9 Cluster Admin GUI で CF の起動を行うと、以下のメッセージが出力され、GFS の起動に失敗する
ERROR: sfcfsrm:0011: Starting the sfcfrmd daemon failed because quorum does not exist

説明

本メッセージは、GUI からの CF 起動時に、クラスタ整合状態が保証されていないため、GFS サービスの起動を中止したことを示しています。sfcfrmd デーモンの起動方法を wait に設定している場合、GUI からの CF 起動時に、クラスタ整合状態が保証されていないと、GFS サービスの起動を中止します。

以下の場合に、クラスタ整合状態が保証されないため、GFS サービスの起動を中止します。

クラスタパーティションが発生した。
全ノードで CF を停止した後に、GUI から CF の起動し GFS の運用を行おうとした。

対処

全ノードの CF を停止した後に、GUI から CF の起動を行う場合は、"PRIMECLUSTER Global File Services 説明書" の "GFS 共用ファイルシステムを利用している環境で GUI から CF を起動する手順"に従って、CF を起動してください。

上記の手順に従っても、GFS サービスの起動に失敗する場合は、クラスタパーティションが発生したことが原因と考えられます。"PRIMECLUSTER Global File Services 説明書" の "sfcfrmd デーモンが起動しない場合の対処" を参照し、対処を行ってください。

Ｑ3-3-10 ciptool が実行できない

対処

/usr/bin/ciptool が、/opt/SMAW/SMAWcf/bin/ciptool へのシンボリックリンクか確認してください。

シンボリックリンクでない場合は、/opt/SMAW/SMAWcf/bin/ciptool コマンドを実行してください。

目次索引

3.3 CF に関するトラブル

■トラブル一覧

Ｑ3-3-1 ノードがクラスタに参入できない

対処

Ｑ3-3-2 システム起動時、/var/log/messages ファイルに以下の警告メッセージが出力される場合がある Warning!!! net_device size is different

対処

Ｑ3-3-3 運用中に /var/adm/messages ファイルに以下のメッセージが出力される場合がある cf:mipc:ib_available gethostbyname: No such file or directory

原因

対処

Ｑ3-3-4 PRIMECLUSTER 環境で、XSCF にてサーバが認識できない

原因

対処

説明

対処

Ｑ3-3-6 Cluster Admin の CF メインウィンドウにてリモートデバイスとローカルデバイスが UNKNOWN となる

現象

原因

対処

Ｑ3-3-7 Cluster Admin の CF メインウィンドウで、相手ノードの状態が "UNKNOWN" と表示される

原因

対処

Ｑ3-3-8 cfconfig コマンドで CF のシャットダウンを行うと、以下のメッセージが表示され CF がシャットダウンできない cfconfig: cannot unload: #0406: generic: resource is busy および cfconfig: check if dependent service-layer module(s) active

原因

対処

Ｑ3-3-9 Cluster Admin GUI で CF の起動を行うと、以下のメッセージが出力され、GFS の起動に失敗する ERROR: sfcfsrm:0011: Starting the sfcfrmd daemon failed because quorum does not exist

説明

対処

Ｑ3-3-10 ciptool が実行できない

対処

Ｑ3-3-2 システム起動時、/var/log/messages ファイルに以下の警告メッセージが出力される場合がある
　　　　　Warning!!! net_device size is different

Ｑ3-3-3 運用中に /var/adm/messages ファイルに以下のメッセージが出力される場合がある
　　　　　cf:mipc:ib_available gethostbyname: No such file or directory

Ｑ3-3-8 cfconfig コマンドで CF のシャットダウンを行うと、以下のメッセージが表示され CF がシャットダウンできない
cfconfig: cannot unload: #0406: generic: resource is busy および cfconfig: check if dependent service-layer module(s) active

Ｑ3-3-9 Cluster Admin GUI で CF の起動を行うと、以下のメッセージが出力され、GFS の起動に失敗する
ERROR: sfcfsrm:0011: Starting the sfcfrmd daemon failed because quorum does not exist