CRM 設定時のトラブル対処方法です。
■トラブル一覧
No. | 現象 | Solaris | Linux |
---|---|---|---|
"6001 メモリ資源が不足しています。" と表示された | ○ | ○ | |
"6002 ディスク資源またはシステム資源が不足しています。" と表示された | ○ | ○ | |
"6201 クラスタ制御の構成管理機構で内部矛盾が発生しました。" または "6209 指定されたファイルまたはクラスタ構成データベースが存在しません。" と表示された | ○ | ○ | |
"7500 クラスタリソース管理機構で内部矛盾が発生しました。”と表示された | ○ | ○ | |
クラスタインタコネクトの全パス故障による強制停止後、再起動したノードの起動が完了しない場合がある | ○ | ○ | |
"2927 ノード(node) でディスク装置を新規に検出しました。(disk)" と出力される | ○ | - | |
自動構成にて登録された共用ディスク装置のインスタンス番号が連番で作成されない | ○ | - | |
Web-Based Admin ViewのCluster Admin から CRM タブを参照すると別のクラスタセットの設定内容が表示される | ○ | ○ | |
自動構成(クラスタ自動リソース登録)を行うと、以下のメッセージが表示され自動構成に失敗する | ○ | - | |
自動構成を実行したが、増設したディスク装置が登録されない | ○ | - | |
マルチパスドライバを使用している環境で、自動構成を実行すると、マルチパスとして mplb ではなく mphd が登録される。または、マルチパスが登録されない | ○ | - | |
自動構成を実行して mplb 等の論理パスを登録したが、希望するインスタンス番号で論理パスが作成されない | ○ | - | |
自動リソース登録を実行したところ、mplb リソースが、0 番から採番される | ○ | - | |
自動構成(クラスタ自動リソース登録)を行うと、以下のメッセージが表示され自動構成に失敗する | ○ | - | |
Cluster Admin の CRM メインウィンドウで[ツール]-[初期構成設定]を選択したところ、"0712 すでに設定が完了しています。" のポップアップが出力され、自動構成が選択できない | ○ | - | |
リソースデータベースの設定 (clsetup コマンド)が異常復帰する | - | ○ | |
CRM の初期構成設定を実施したところ、以下のメッセージが表示され設定できません ”リソースデータベース初期構成設定に失敗しました” | ○ | ○ |
メモリ資源の不足以外に、共用メモリが不足している可能性もあります。
6001 番のメッセージの対処を実施しても解決しない場合は、6005 番のメッセージの対処を実施してください。
詳細は、"PRIMECLUSTER 活用ガイド<メッセージ集>" を参照してください。
以下の 3 点を確認してください。
クラスタ制御の動作に必要なディスクの空き容量があるか
ディスク容量が不足している場合、不要なファイルを削除する等を行い、ディスク容量を確保してください。クラスタ制御の動作に必要なディスク容量は、各製品に添付されているPRIMECLUSTERのインストールガイドを参照してください。
カーネルパラメタの設定値が正しいか
PRIMECLUSTER 4.4以降では PRIMECLUSTERデザインシートの "セットアップ(初期構成)" 、PRIMECLUSTER 4.3以前は "PRIMECLUSTER 導入運用手引書" の"カーネルパラメタ・ワークシート" を参照し、リソースデータベースを使用する場合のカーネルパラメタの設定値が正しいことを確認してください。
設定が正しくない場合は、設定変更後、システムを再起動してください。
メモリ資源が不足していないか
メモリ資源が不足している場合、6001 番のメッセージの対処を実施してください。
詳細は、"PRIMECLUSTER 活用ガイド<メッセージ集>" を参照してください。
メモリまたはディスク資源が不足している可能性もあります。
6201 番のメッセージの対処を実施しても解決しない場合は、6001 番および 6002 番のメッセージの対処を実施してください。
詳細は、"PRIMECLUSTER 活用ガイド<メッセージ集>" を参照してください。
ディスク資源が不足している可能性もあります。
7501 番のメッセージの対処を実施してください。
詳細は、"PRIMECLUSTER 活用ガイド<メッセージ集>" を参照してください。
3 ノード以上のクラスタ構成で、クラスタインタコネクトの全パス故障によりノードが強制停止された後、クラスタインタコネクトを復旧し強制停止したノードが再起動した場合に、クラスタ構成データベースの不一致により、再起動したノードの起動が完了しない場合があります。
起動が完了しないノードを再起動してください。
クラスタインタコネクトが故障していないかは、cftool(1M) コマンドまたは Cluster Admin GUI のCF メインウィンドウで確認できます。
クラスタ構成データベースに不一致が生じています。
クラスタ構成データベースに不一致が生じると、クラスタ構成データベースの不一致を検出したノードに、「6200: クラスタ制御の構成管理機構でクラスタ構成データベースの不一致が発生しました。(name:name node:node (node-number))」のエラーメッセージが出力されます。本メッセージが出力されていないノードが、クラスタ構成データベースが不一致となっているノードですので、本メッセージが出力されていないノードを再起動してください。
name は不一致となったクラスタ構成データベース名、node は、クラスタ構成データベースが古いノードのノード識別名、node-number の node はクラスタ構成データベースが正常なノードのノード識別番号、number はクラスタ構成データベースの一致化処理の処理識別番号です。
新たに検出したディスク装置 (disk) をリソースデータベースに登録してください。
リソースデータベースへのディスク装置の登録は、clautoconfig(1M) コマンド、または CRM メインウィンドウから行うことができます。clautoconfig(1M) コマンドの詳細については、"PRIMECLUSTER 活用ガイド<コマンドリファレンス編>" を参照してください。
node はディスク装置を新規に検出したノード識別名、disk は新たに検出したディスク装置を示します。新規に検出したディスク数が多い場合、disk の末尾に ”...” が付加されます。その場合、node に表示されたノードの /var/adm/messages ファイルで 2914 番のメッセージを検索することで新規に検出したすべてのディスク装置を参照できます。
自動構成は、過去にディスク装置と対応付けを行ったインスタンス番号を記録しています。
このため、ディスク装置の削除後に別のディスク装置を追加するなどの構成変更を行うと、インスタンス番号が連番で作成されない場合があります。
以下の手順で、共用ディスク装置のリソースを再作成してください。
/var/opt/FJSVcluster/data/ACF/acfmpinstnotable ファイルを削除します。
※ファイルの削除はすべてのノードで実施してください。
ファイルが存在しない場合もあります。
共用ディスク装置のリソースを削除します。
"PRIMECLUSTER 導入運用手引書 (Oracle Solaris)" の "ハードウェアのリソースの削除" を参照して、対象となるハードウェアリソースを削除してください。
再度、自動構成を実施してください。詳細は、"PRIMECLUSTER 導入運用手引書 (Oracle Solaris)" の "自動構成" を参照してください。
本手順で、問題が解消しない場合には、Q1-6-12 の対処を行ってください。
1 台の運用管理サーバで複数のクラスタセットを管理する設定を行った可能性があります。
複数のクラスタセットを1台の運用管理サーバで管理することは未サポートです。
クラスタセットごとに別々の運用管理サーバを使用してください。
自動リソース登録を行うためには、ノード間で sfdsk ドライバ (Global Disk Services。以降、GDS) のメジャー番号を合わせる必要があります。そのため、クラスタシステムのインストール時にメジャー番号の予約を行っていますが、すでに他のドライバがメジャー番号を使用中であった等の理由で予約に失敗し、ノード間でメジャー番号が不一致となることがあります。この場合、自動リソース登録が 6911 のメッセージでエラー終了します。
本現象が発生した場合は、以下の手順で、各ドライバのメジャー番号を一致させてください。
メジャー番号の確認
すべてのノードにログインし、/etc/name_to_major ファイルの内容を確認します。
例)
node1 # cat /etc/name_to_major : sfdsk 253 : node2 # cat /etc/name_to_major : sfdsk 259 : ^^^メジャー番号が node1 と異なる
メジャー番号の予約
各ノードの /etc/name_to_major ファイルの内容から、いずれのノードでも使用されていないメジャー番号を確認してください。その際のメジャー番号は一番小さい値となるように選択してください。
clrsvmajor コマンドを使用し、sfdsk ドライバに対して、現在使用されていないメジャー番号が割り当たるように予約を行ってください。
すべてのノードで同じメジャー番号となるように予約を行ってください。
例) メジャー番号 263 が未使用であった場合
node1 # /etc/opt/FJSVcluster/bin/clrsvmajor -M 263 sfdsk 253 node1 #
node2 # /etc/opt/FJSVcluster/bin/clrsvmajor -M 263 sfdsk 259 node2 #
clrsvmajor コマンドは以前割り当てられていたメジャー番号を表示します。
ノードの再起動
メジャー番号の予約を行ったノードを shutdown(1M) コマンドを使用して再起動し、メジャー番号の変更を反映させます。
メジャー番号の確認
任意のノードで clchkmajor コマンドを実行し、復帰値が 0 となることを確認してください。
例)
node1 # /etc/opt/FJSVcluster/sys/clchkmajor node1 # echo $? (この例はシェルが sh である場合の例です)
※復帰値が 0 とならない場合には、ノード間でメジャー番号が一致していないドライバが、存在しますので、再度確認してください。
自動構成を再実行
以下の場合に、増設したディスク装置がリソース登録されない場合があります。
他のクラスタシステムで使用していたディスク装置を移設した場合
既存のディスク装置から増設したディスク装置へ VTOC を含めてディスクの内容をコピーした場合
自動構成は、ディスク装置の VTOC にボリューム名を書き込むことでディスク装置を管理しています。このため、クラスタで管理しているボリューム名と同一のボリューム名が増設したディスク装置に設定されていた場合、そのディスク装置はリソース登録しません。この場合、コンソール等にエラーメッセージは表示されません。
format(1M) コマンドを使用して、登録されなかったディスク装置のボリューム名をクリアし、再度自動構成を実行してください。
マルチパスドライバを使用する場合、cldiskadm コマンドをマルチパスドライバに同梱されているものに置き換える必要があります。
cldiskadm コマンドを置き換えていない場合、自動構成が正しく動作しない場合があります。
cldiskadm コマンドをマルチパスドライバに同梱されているものに置き換えていない場合、以下のようにシンボリックリンクを再作成して、cldiskadm コマンドを置き換えてください。
例)
# rm /etc/opt/FJSVcluster/sys/cldiskadm
# ln -s /etc/opt/FJSVmplb/bin/cldiskadm /etc/opt/FJSVcluster/sys/cldiskadm
置き換え後、正しくシンボリックリンクが作成されたことを ls コマンドで確認してください。
例)
# ls -l /etc/opt/FJSVcluster/sys/cldiskadm
lrwxrwxrwx 1 root root 31 Dec 14 15:21 /etc/opt/FJSVcluster/sys/cldiskadm -> /etc/opt/FJSVmplb/bin/cldiskadm
自動構成は、共用ディスクを検出した順番や過去に割り当てたインスタンス番号などから自動的にインスタンス番号を割り当てます。
※インスタンス番号: デバイス名 (mplb2048) の番号 (2048) のこと
自動的にインスタンス番号を割り当てるのではなく、希望のインスタンス番号を割り当て論理パスを作成したい場合、自動構成の前に手動で論理パスを作成する方法があります。通常、自動構成は、論理パスの作成とリソース登録を行いますが、事前に論理パスが作成されている場合には作成されている論理パスのリソース登録のみを行います。
論理パスの作成方法については、"マルチパスディスク制御説明書" や、"マルチパスドライバユーザーズガイド" を参照してください。
論理パスを手動で作成する場合、ディスク装置を共用しているすべてのノードで、同じディスク装置に対しては同じインスタンス番号である必要があります。
同じディスク装置に対して同じインスタンス番号でない場合には、以下のエラーで自動構成が失敗します。
6905 論理パスのインスタンス番号がノード間で異なっているため自動リソース登録を中止します。
過去に手動で mplb のインスタンス番号を 0 番から採番した後に、自動リソース登録を実行していた可能性があります。
インスタンス番号を 2048 番から作成を行いたい場合は、以下の手順で再作成してください。
■現在のインスタンス番号を mplb0 ~ から mplb2048 ~ へ連番で再登録する場合
/var/opt/FJSVcluster/data/ACF/acfmpinstnotable ファイルの削除
acfmpinstnotable ファイルを削除してください。
注意
全ノードで実施してください。
acfmpinstnotable ファイルは、世代管理されていますので、cfmpinstnotable.1、acfmpinstnotable.2 などがありましたらすべて削除してください。
ハードウェアリソースの削除
"PRIMECLUSTER 導入運用手引書 (Oracle Solaris)" の"ハードウェアのリソースの削除" を参照してください。
ここでは、以下のコマンドを実施してください。
# /etc/opt/FJSVcluster/bin/cldeldevice -c MPHD -a
注意
上記実施後、clgettree コマンドにて、共用ディスク装置のリソース (mplb0 ~ mplb55) が削除されていることを確認してください。
自動リソース登録の実施
自動リソース登録を再度実施してください。
自動リソース登録に関しての説明は、"PRIMECLUSTER 導入運用手引書 (Oracle Solaris)" の "クラスタリソース管理機構の初期設定" の "自動構成" を参照してください。
注意
自動リソース登録の実施後、"Cluster Admin" の crm タブまたは、clgettree コマンドを実行し、共用ディスク装置が、mplb2048 から連番で作成されていることを確認してください。
自動リソース登録では、ディスクにユニークなボリューム名を設定しています。
複数のクラスタシステムから同一の共用ディスクに対して自動リソース登録が行われたことにより、ボリューム名が重複し、6905 番のエラーとなっている可能性があります。詳細は "PRIMECLUSTER 活用ガイド<メッセージ集>" を参照してください。
同一のディスクを複数のクラスタシステムから認識しないよう対処してください。
PRIMECLUSTER の初期構成設定前に GDS でシステムディスクのミラーリングを設定したため、エラーメッセージが出力されている可能性があります。
全ノードですべてのミラーリングを解除後、リソースデータベースのリセットを行ってください。
リソースデータベースのリセットは clinitreset コマンドで行います。clinitreset コマンドの使用方法は以下のとおりです。
clinitreset コマンドの実行
全ノードで以下のコマンドを実行してください。
# /etc/opt/FJSVcluster/etc/bin/clinitreset
再起動
全ノードで以下のコマンドを実行してください。
# /usr/sbin/shutdown -y -g0 -i6
clsetup コマンド実行時に行う相手ノードへのアクセスが、Firewall のセキュリティチェックにより失敗している可能性があります。
システムのセキュリティ設定で "Firewall あり" に設定している場合は、"Firewall なし" に再設定してください。
システムのセキュリティ設定が "Firewall あり" になっていませんか?
導入時に、SUPPLEMENT CD を使わずインストールを行うなど、PRIMECLUSTERとして必要なパッケージが正常にインストールされていない可能性があります。
PRIMECLUSTER の再インストールを実施し、初期構成設定を実施してください。