ページの先頭行へ戻る
PRIMECLUSTER 活用ガイド<トラブルシューティング編>

3.7.3 トラブル対処例 2

事象

ノードがクラスタに参入できない。一部またはすべてのノードが cftool -e に応答する。

診断

この時点で CF デバイスが正常にロードされ、ノードがクラスタ内の他の 1 つ以上のノードと通信可能な状態であることがわかりました。この場合、インタコネクトがメッセージを紛失している可能性が考えられます。この仮定を確かめるには繰り返しエコー要求を送信し、時間とともに結果が変化するかどうかを確認します。以下に例を示します。

fuji2> cftool -e
Localdev Srcdev Address Cluster Node Number Joinstate
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6
fuji2> cftool -e
Localdev Srcdev Address Cluster Node Number Joinstate
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6
3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6
fuji2> cftool -e
Localdev Srcdev Address Cluster Node Number Joinstate
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6
fuji2> cftool -e
Localdev Srcdev Address Cluster Node Number Joinstate
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6
3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6
fuji2> cftool -e
Localdev Srcdev Address Cluster Node Number Joinstate
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6
3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6
fuji2> cftool -e
Localdev Srcdev Address Cluster Node Number Joinstate
3 2 00.03.47.c2.aa.f9 FUJI fuji2 3 6
3 2 00.03.47.c2.a8.82 FUJI fuji3 2 6
3 3 00.03.47.d1.af.ec FUJI fuji4 1 6
3 3 00.03.47.d1.ae.f9 FUJI fuji5 1 6

上記の実行結果を見ると、ノード fuji5 については、表示されていない場合があります。これはノード fuji5 への接続にエラーがあることを示しています。

対処1

まず、ノード fuji5 のイーサネットユーティリティにエラーがないかどうかを確認します。fuji5 にログインして、ネットワークインタフェース情報とエラーを検索します。

■Solaris の場合

netstat(1M) ユーティリティを使用して調査を行います。

■Linux の場合

netstat(8) または ip(8) ユーティリティを使用して調査を行います。

ここでは、Solaris の場合を例に、調査方法について説明します。

fuji5 にログインしてネットワークデバイスを参照すると、以下の結果が表示されます。

Number Device Type Speed Mtu State Configured Address
1 /dev/hme0 4 100 1432 UP NO 00.80.17.28.2c.fb
2 /dev/hme1 4 100 1432 UP NO 00.80.17.28.2d.b8
3 /dev/hme2 4 100 1432 UP YES 08.00.20.bd.60.e4

Solaris の netstat(1M) ユーティリティは、ネットワークインタフェースに関する情報を提供します。

1 回目の試行では以下の情報が表示されます。

fuji5# netstat -i
Name Mtu Net/Dest Address Ipkts Ierrs Opkts Oerrs Collis Queue
lo0 8232 loopback localhost 65 0 65 0 0 0
hme0 1500 fuji4 fuji4 764055 8 9175 0 0 0
hme1 1500 fuji4-priva fuji4-priva 2279991 0 2156309 0 7318 0

この出力結果には hme2 インタフェースが表示されていません。これは、TCP/IP に構成されていないインタコネクトに関する出力を Solaris がサポートしていないためです。Solaris で hme2 インタフェースに関するレポートを一時的に有効にするには、以下のとおりに ifconfig plumb コマンドを実行します。

fuji5# ifconfig hme2 plumb
fuji5# netstat -i
Name Mtu Net/Dest Address Ipkts Ierrs Opkts Oerrs Collis Queue
lo0 8232 loopback localhost 65 0 65 0 0 0
hme0 1500 fuji4 fuji4 765105 8 9380 0 0 0
hme1 1500 fuji4-priva fuji4-priva 2282613 0 2158931 0 7319 0
hme2 1500 default 0.0.0.0 752 100 417 0 0 0

hme2 インタフェースの 752 個の入力パケット (Ipkts) に 100 個の入力エラー (Ierrs) があることがわかります。つまりパケットの 7 個に 1 個の割合でエラーが発生していることになり、エラー率が高すぎて PRIMECLUSTER は失敗します。fuji5 が fuji2 からのエコー要求に応答しない原因もここにあります。

対処2

対処1の内容を行ったあと、以下の対処を行ってください。

上記の手順のいずれを実行しても問題が解決しない場合は、当社技術員 (SE) による診断が必要です。