DFS領域の用途
DFS領域として、以下の3種類のパーティションをストレージ上に用意します。
管理パーティション
DFSを運用するために必要な情報を保持するパーティションです。P-DFSのシステム全体で1つです。
代表パーティション
ファイルシステムのデータのうち、主にメタデータとアップデートログを保持するパーティションです。ファイルデータを保持することもできます。ファイルシステム毎に1つです。
ファイルデータパーティション
ファイルの実データを保持するパーティションです。ファイルシステム毎に複数保持することができます。
性能を考慮し、代表パーティションにはファイルデータを保持しないことを推奨します。
DFS領域の割り当て指針
DFS領域をストレージに割り当てる際は、以下のような点を考慮してください。処理後にデータ量が削減されず、大量のデータを入出力する(入力データ量≦出力データ量)ような入出力負荷の高いHadoopジョブを実行する場合には、特に留意してください。
ストレージ接続構成
HadoopジョブからのDFSへのファイルデータの入出力量は、スレーブサーバのCPUコア数に比例します。また、ほぼすべてのコアを使用して同じアプリケーションが並列に動作します。そのため、ストレージ装置の能力よりも接続経路が性能ボトルネックとなることがないよう、1つのCPUコアあたり1GBps程度の帯域が確保できる接続構成とすることを推奨します。
RAID構成
RAID構成は入出力性能と可用性を考慮して、RAID1、またはRAID0+1の構成を推奨します。RAID5/6は使用しないでください。
論理ボリューム構成
P-DFSは、ファイルデータパーティションに割り当てられた各ボリュームの負荷を考慮して入出力を行います。そのため、ファイルデータパーティションには、大容量の論理ボリュームを少数割り当てるよりも小容量の論理ボリュームを多数割り当てることを推奨します。
ブロックサイズ
P-DFSは、ファイルシステム作成時のブロックサイズ単位でファイルデータを管理します。
Hadoopジョブに対してブロックサイズよりも大きなサイズのファイルを少数指定して利用する場合には、ブロックサイズを大きめに設定することを推奨します。
ブロックサイズよりも小さなサイズのファイルを多数指定して利用する場合には、ブロックサイズを小さめに設定します。この場合、ファイルデータパーティションの使用量を削減することができる一方で、管理するブロック数が増えることによりメタデータを管理する代表パーティションの必要容量は増加します。