ページの先頭行へ戻る
Interstage Big Data Parallel Processing Server V1.2.0 ユーザーズガイド
FUJITSU Software

17.2.2 MapReduce作業領域の割り当て

Hadoopジョブは、MapReduceアルゴリズムにしたがってMapとReduceの2フェーズで処理されます。その際、MapフェーズとReduceフェーズの間のデータ授受は、MapReduce作業領域に格納されたファイルを介して行われます。MapReduce作業領域はDFS上ではなく、他のサーバとは共用しない各スレーブサーバ上のローカルディスクに配置されます。


17.2.1 DFS領域の割り当て」で述べたような入出力負荷の高いHadoopジョブを実行する場合、DFS領域と同様に各スレーブサーバ上のMapReduce作業領域の入出力も高負荷となります。

そのため、MapReduce作業領域には複数のローカルディスクを割り当てることを推奨します。ディスク装置の性能にもよりますが、CPUコア2~3あたり1つのローカルディスクをMapReduce作業領域に割り当てます。また、格納されるのはHadoopジョブ実行後に削除される作業データであるため、可用性のためのRAID構成等は必ずしも必要ではありません。


MapReduce作業領域は、以下のプロパティで指定します。

参照

Hadoopジョブの動作の詳細は、「17.5.1 Hadoopジョブとタスク」で説明します。