ノードがクラスタに参入できない。一部またはすべてのノードが cftool -e に応答する。
この時点で CF デバイスが正常にロードされ、ノードがクラスタ内の他の 1 つ以上のノードと通信可能な状態であることがわかりました。この場合、インタコネクトがメッセージを紛失している可能性が考えられます。この仮定を確かめるには繰り返しエコー要求を送信し、時間とともに結果が変化するかどうかを確認します。以下に例を示します。
fuji2> cftool -e Localdev Srcdev Address Cluster Node Number Joinstate 3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6 3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6 3 3 00.03.47.d1.af.ec FUJI fuji4 1 6 fuji2> cftool -e Localdev Srcdev Address Cluster Node Number Joinstate 3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6 3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6 3 3 00.03.47.d1.af.ec FUJI fuji4 1 6 3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6 fuji2> cftool -e Localdev Srcdev Address Cluster Node Number Joinstate 3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6 3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6 3 3 00.03.47.d1.af.ec FUJI fuji4 1 6 fuji2> cftool -e Localdev Srcdev Address Cluster Node Number Joinstate 3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6 3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6 3 3 00.03.47.d1.af.ec FUJI fuji4 1 6 3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6 fuji2> cftool -e Localdev Srcdev Address Cluster Node Number Joinstate 3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6 3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6 3 3 00.03.47.d1.af.ec FUJI fuji4 1 6 3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6 fuji2> cftool -e Localdev Srcdev Address Cluster Node Number Joinstate 3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6 3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6 3 3 00.03.47.d1.af.ec FUJI fuji4 1 6 3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6 |
上記の実行結果を見ると、ノード fuji5 については、表示されていない場合があります。これはノード fuji5 への接続にエラーがあることを示しています。
まず、ノード fuji5 のイーサネットユーティリティにエラーがないかどうかを確認します。fuji5 にログインして、ネットワークインタフェース情報とエラーを検索します。
■Solaris の場合
netstat(1M) ユーティリティを使用して調査を行います。
■Linux の場合
netstat(8) または ip(8) ユーティリティを使用して調査を行います。
ここでは、Solaris の場合を例に、調査方法について説明します。
fuji5 にログインしてネットワークデバイスを参照すると、以下の結果が表示されます。
Number Device Type Speed Mtu State Configured Address 1 /dev/hme0 4 100 1432 UP NO 00.80.17.28.2c.fb 2 /dev/hme1 4 100 1432 UP NO 00.80.17.28.2d.b8 3 /dev/hme2 4 100 1432 UP YES 08.00.20.bd.60.e4 |
Solaris の netstat(1M) ユーティリティは、ネットワークインタフェースに関する情報を提供します。
1 回目の試行では以下の情報が表示されます。
fuji5# netstat -i Name Mtu Net/Dest Address Ipkts Ierrs Opkts Oerrs Collis Queue lo0 8232 loopback localhost 65 0 65 0 0 0 hme0 1500 fuji4 fuji4 764055 8 9175 0 0 0 hme1 1500 fuji4-priva fuji4-priva 2279991 0 2156309 0 7318 0 |
この出力結果には hme2 インタフェースが表示されていません。これは、TCP/IP に構成されていないインタコネクトに関する出力を Solaris がサポートしていないためです。Solaris で hme2 インタフェースに関するレポートを一時的に有効にするには、以下のとおりに ifconfig plumb コマンドを実行します。
fuji5# ifconfig hme2 plumb fuji5# netstat -i Name Mtu Net/Dest Address Ipkts Ierrs Opkts Oerrs Collis Queue lo0 8232 loopback localhost 65 0 65 0 0 0 hme0 1500 fuji4 fuji4 765105 8 9380 0 0 0 hme1 1500 fuji4-priva fuji4-priva 2282613 0 2158931 0 7319 0 hme2 1500 default 0.0.0.0 752 100 417 0 0 0 |
hme2 インタフェースの 752 個の入力パケット (Ipkts) に 100 個の入力エラー (Ierrs) があることがわかります。つまりパケットの 7 個に 1 個の割合でエラーが発生していることになり、エラー率が高すぎて PRIMECLUSTER は失敗します。fuji5 が fuji2 からのエコー要求に応答しない原因もここにあります。
対処1の内容を行ったあと、以下の対処を行ってください。
イーサネットケーブルの両端が確実に差し込まれていることを確認する。
cftool -e の実行を繰り返し、netstat -i または ip -s link を参照する。cftool の結果が常に同じで、入力エラーが発生しなくなるか、大幅に減れば、問題は解決します。
イーサネットケーブルを交換する。
イーサネットハブまたはスイッチの他のポートを使用するか、ハブまたはスイッチを交換する。または一時的にクロスコネクトケーブルを使用する。
ノードのイーサネットアダプタを交換する。
上記の手順のいずれを実行しても問題が解決しない場合は、当社技術員 (SE) による診断が必要です。