ノードをクラスタに参入しようとした際に発生するトラブルについて説明します。
ここでは、それまでクラスタへの参入に成功していたノードを対象に説明します。はじめてノードがクラスタに参入する場合の初期起動の問題については、動作確認のセクションを参照してください。
問題の特定方法
これまでクラスタに参入できていたノードが再参入に失敗した場合、以下の手順で問題を特定します。
1) エラーログおよびコンソールのメッセージを参照する
2) イーサネットドライバのエラーが発生していないか、その他のエラーが発生していないかなどを確認する
3) システムの他の部分にエラーがある場合、まずそのエラーを修正する
4) CF ドライバが正しくダウンロードされているかを確認する
5) CF over IP を使用している場合、ファイアウォールやセキュリティグループ(またはセキュリティ規則)が正しく設定されているか、ルーティングの設定が適切に行われているかを確認する
CF ドライバの確認
CF ドライバは以下の手順で確認します。
1) CF デバイスドライバがロードされていることを確認します。
2) デバイスドライバがロードされるとログファイルに以下のメッセージが出力されます。
CF: (TRACE): JoinServer: Startup. |
3) cftool -l コマンドを実行すると、ドライバの状態が表示されます。以下のようなログファイルメッセージが表示されます。
fuji2> cftool -l |
これはドライバがロード済みで、ノードがクラスタへの参入を試行中であることを示しています。
ログファイルに上記のエラーログメッセージが出力されていない場合、または cftool -l コマンドが失敗した場合、デバイスドライバはロードされていません。
CF デバイスドライバがロードされない原因が /var/adm/messages ファイルにもコンソールにも示されていない場合、CF カーネルバイナリまたは CF カーネルコマンドが破損している可能性があります。本製品をアンインストールして CD から再インストールしてください。
CF デバイスドライバがロードされると、次のメッセージに従ってクラスタの参入が試行されます。
CF: (TRACE): JoinServer: Startup. |
参入サーバは構成済みインタコネクト上の他のノードとの通信を試みます。他の 1 つ以上のノードがクラスタを起動済みの場合、ノードはこのクラスタへの参入を試行します。この場合エラーログに出力されるメッセージを以下に示します。
CF: Giving UP Mastering (Cluster already Running). |
エラーログにこのメッセージが出力されない場合、ノードは構成済みのインタコネクト上で行われる他のノードの通信を認識せず、固有のクラスタを起動します。以下の 2 つのメッセージはノードが固有のクラスタを作成したことを示します。
CF: Local Node fuji2 Created Cluster FUJI. (#0000 1) |
この時点で、CF デバイスドライバがロードされ、ノードがクラスタの参入を試行していることを確認できました。以降の"トラブル対処例"には、問題と修正処理が記述されています。調査中のノードの症状に最も近い問題を探し、そこに記述されている手順に従ってください。