GFS に関するトラブルシューティングについて説明します。
注意
以下のトラブル以外は、"PRIMECLUSTER Global File Services 説明書" の "トラブルシューティング" を参照してください。
■トラブル一覧
No. | 現象 | Solaris | Linux |
---|---|---|---|
ERROR:sfcfrmstart:0010:Starting processing of sfcfrmd went wrong が表示される | ○ | ○ | |
ERROR: sfcfsd: 0011: blockade : mountpoint(xxxxx) が表示される | ○ | - | |
ノードの起動が完了しているのにGFS共用ファイルシステムが自動マウントされない | ○ | ○ |
GFS : Global File Services
本メッセージは、GFS 共用ファイルシステムのデーモン sfcfrmd が異常を検知して起動に失敗したことを示します。sfcfrmd が起動に失敗するとそのノードでは GFS 共用ファイルシステムをマウントすることができません。
sfcfrmd の検知する異常は、以下の事象が考えられます。
CF 機能が使用できない
以下の事象が発生していないか調査して、対処を実施してください。
CF 機能が使用できない
まず、/var/adm/messages で、CF のエラーメッセージが出力されていないか確認してください。エラーメッセージが出力されている場合は、"PRIMECLUSTER 活用ガイド<メッセージ集>" を参照し、該当するメッセージに応じた対処を行ってください。
例えば、CF のアンロードが失敗した場合、下記のエラーメッセージが出力されています。
cf:cfconfig OSDU_stop: failed to unload cf_drv
この場合は、"PRIMECLUSTER 活用ガイド<メッセージ集>" の "cfconfig コマンドメッセージ" の "cfconfig -u" の対処に従ってください。
また、CF の初期化が完了する前に sfcfrmd が起動された場合、その起動に失敗することがあります。"cftool -l" を実行し、自ノードの State が UP になっていることを確認した後、以下の操作を行い、GFS を起動してください。
sfcfrmd を起動してください。
# sfcfrmstart
必要があれば、GFS 共用ファイルシステムをマウントしてください。
■Solaris
# mount /mnt/fs1
マウントポイント:/mnt/fs1
■Linux
# sfcmount /mnt/fs1 マウントポイント:/mnt/fs1
上記が原因でない場合は、全ノードについて調査資料を採取し、カスタマサポート担当者にご連絡ください。調査資料の採取方法は、"第7章 トラブル調査情報の採取方法"を参照してください。
マウントポイントが xxxxx である GFS 共用ファイルシステムが閉塞しました。フェイルオーバ処理が行われましたが、なんらかの問題が発生しフェイルオーバが失敗したためです。
上記メッセージの前に、GFS 共用ファイルシステムが動作しているノードのコンソールにエラーメッセージが表示されている場合は、そのエラーメッセージに対する対処を行ってください。GFS 共用ファイルシステムのエラーメッセージについては、"PRIMECLUSTER Global File Services 説明書" の "メッセージ一覧" を参照してください。
/var ファイルシステムが、GFS 共用ファイルシステムの共用ノードにおいて性能差がある状況か確認してください。性能差がある状況で複数ファイルシステムを運用している場合は、フェイルオーバ処理が失敗しファイルシステムが閉塞する場合があります。
例えば、以下の状況が考えられます。
GFS 共用ファイルシステムを共用する一部のノードにおいてのみ /var が GDS のミラーボリューム上に構築されているなど、ノード間で /var の I/O 性能差があるシステム構成となっている場合
この場合は、すべての GFS 共用ファイルシステムを共用するノードの /var を同一の構成としてください。
例えば、すべてのノードで /var にローカルディスクを使用するか GDS のシスボルミラー構成を使用するかどちらかに統一してください。
GFS 共用ファイルシステムを共用する一部のノードにおいて /var が構築されている GDS のボリュームで等価性コピーが動作している場合
この場合は、閉塞が発生したファイルシステムを一旦アンマウントしてマウントすることで復旧してください。可能であれば、GDS のボリュームの等価性コピーが完了後にシステム運用を開始願います。
なお、等価性コピーの状態は、sdxinfo(1M) で確認します。詳細は、"PRIMECLUSTER Global Disk Services 説明書" を参照してください。
GFS 共用ファイルシステムを共用するノードの一部だけ /var が構築されているディスク装置で媒体エラーが発生している場合
この場合は、早急にディスク装置の交換を実施してください。
上記以外の場合は、全ノードについて調査資料を採取し、カスタマサポート担当者にご連絡ください。調査資料の採取方法は、"第7章 トラブル調査情報の採取方法"を参照してください。
閉塞が発生したファイルシステムを一旦アンマウントしてマウントすることで復旧してください。
ノード起動時、または、マルチユーザモード遷移時に、クラスタ整合状態が保証されていないと、sfcfrmd デーモンの起動が保留されます。sfcfrmd デーモンの起動方法を wait_bg に設定している場合は、sfcfrmd デーモンの起動だけ保留するので、ノードの起動が完了していても、GFS 共用ファイルシステムが自動マウントされていないことがあります。通常は、クラスタ整合状態が保証されない状態は、すべての運用ノードが起動するまでの一時的な状態であり、クラスタ整合状態が保証され次第、sfcfrmd デーモンの起動と GFS 共用ファイルシステムのマウントが行われるため対処は必要ありません。
ただし、以下の場合は、クラスタ整合状態が保証されない状態が続くため対処が必要です。
クラスタパーティションが発生した。
クラスタを構成するすべてのノードを停止している状態から、一部のノードだけを起動し GFS の運用を行おうとした。
"PRIMECLUSTER Global File Services 説明書"の "sfcfrmd デーモンが起動しない場合の対処" を参照してください。