A.1.2 高可用性

DSSファイルシステムでは、ノードダウン、ディスクのブロック故障が発生した場合でもファイルシステムのアクセス継続を可能としています。

ノードダウン時の運用継続性

複数のノードから 1つの DSS ファイルシステムを利用している場合に、1つのノードがノードダウンしても、他のノードからのファイルアクセスは継続できます。ダウンしたノードが保持していたファイルシステム情報は、残ったノードの DSS ファイルシステムの内部で自動的に整合性回復します。つまり、残ったノードで動作しているアプリケーションプログラムには、他のノードのノードダウンの影響でファイルシステム操作がエラーとなることなく処理が継続できます。

参照

運用継続機能の詳細については、 “A.2 ダウンリカバリ機能”を参照してください。

図A.2 ノードダウン時の運用継続性

高速ファイルシステムリカバリ

ノードダウンが発生した場合、通常のファイルシステムでは、fsck(8) によるファイルシステムの整合性回復処理を実行する必要があります。多くのファイルシステムでは、ファイルシステムの整合性回復の際に、ファイルシステムのメタデータ全体を調査する必要があります。また、ノードダウン発生時に、ファイルシステムを実際に利用できるまでに多くの時間を必要とすることがあります。

DSS ファイルシステムでは、アップデートログと呼ぶ領域に、ファイルシステムの構造を変更する操作 (ファイル作成・削除など) を記録します。この領域の情報を利用することによって、システム障害から、高速で回復できます。

システム障害から回復するとき、DSS ファイルシステムの回復処理では、アップデートログを検索します。そして、システム障害時に行っていたファイルシステム操作を無効にするか、完了させるかを判定し、反映します。その後、ファイルシステム構造のフルチェックをすることなく、マウントして利用することが可能となります。

“ノードダウン時の運用継続性”で述べたように、複数ノードで動作している DSSファイルシステムではノードダウン時に自動的に整合性回復処理が動作するので sfcfsck(8) の実行は必要ありません。

注意

sfcfsck(8) のフルチェックモードも提供しています。ディスクのハードウェア障害などでファイルシステム復旧する場合にフルチェックのsfcfsck(8) の実行が必要な場合があります。

sfcfsck(8) のフルチェックモードについては、“コマンドリファレンス”を参照してください。

ディスクブロック故障時の領域再割当て

DSS ファイルシステムでは、新規に割り当てたメタデータ領域にディスクブロックのハードウェア障害が発生した場合に、別のディスクブロックを自動的に割り当てます。これにより、ディスクの特定ブロックだけの故障の場合に、ファイルシステム処理を継続できます。

注意

本機能は、I/O エラーの発生したブロックの使用を一時的に抑止するだけで、同じブロックを使用する要求が出た場合に、再度 I/O エラーが発生してしまうことがあります。

I/O エラーが発生する場合には、該当要求への応答時間が長くなるため、I/O エラーの原因を早く取り除くことが必要です。

I/O エラーによるブロックの再割当てが発生した場合にはまず、ファイルシステムをバックアップします。そして、ディスク交換などによりハードウェアの不良原因を取り除き、バックアップしたデータをリストアすることでファイルシステムの復旧を実施してください。

バックアップ、リカバリについては、“運用ガイド”の“バックアップ・リカバリ”を参照してください。