mapred-site.xml ファイルで設定するプロパティについて説明します。
プロパティ | 初期値/設定値 |
---|---|
io.sort.factor ディスクに書き出した各 map 処理結果(segment)をマージする個数 | 【初期値】 10 【設定値】 50 |
io.sort.mb Map タスクの出力結果を保持するメモリ量(単位:MB) | 【初期値】 100 【設定値】 次のいずれか小さい方の値
|
mapred.child.java.opts Map/Reduce タスクを実行する JVM に指定する起動オプション | 【初期値】 -Xmx200m 【設定値】 -server -Xmx$$m -Djava.net.preferIPv4Stack=TRUE $$ = ( 実装メモリ量(MB) - 2048 ) ÷ ( mapred.tasktracker.map.tasks.maximum + mapred.tasktracker.reduce.tasks.maximum ) |
mapred.child.ulimit Map/Reduce タスクのプロセス(アドレス)空間の最大サイズ(単位:KB) | 【初期値】 なし 【設定値】 0(無制限) |
mapred.compress.map.output Map タスクの出力結果を圧縮するか否か | 【初期値】 false 【設定値】 true |
mapred.local.dir MapReduce ジョブの中間ファイル格納ディレクトリ | 【初期値】 ${hadoop.tmp.dir}/mapred/local 【設定値】 /var/lib/hadoop/mapred/local |
mapred.max.tracker.failures Map/Reduce タスク失敗時の同一 TaskTracker 内での最大リトライ数 | 【初期値】 4 【設定値】 40 |
mapred.reduce.parallel.copies Reduce タスクを実行する TaskTracker が他の TaskTracker の Map 結果を取得する多重度 | 【初期値】 5 【設定値】 20 |
mapred.reduce.tasks MapReduce ジョブ内で最大限動作させる Reduce タスクの数 | 【初期値】 1 【設定値】 mapred.tasktracker.reduce.tasks.maximum × スレーブサーバ数 |
mapred.task.tracker.http.address TaskTracker の HTTP サーバのポート番号 | 【初期値】 0.0.0.0:50060 【設定値】 0.0.0.0:50060 (再設定します) |
mapred.tasktracker.map.tasks.maximum 1つの TaskTracker で同時に実行する Map タスク数 | 【初期値】 2 【設定値】 次のいずれか大きい方の値
|
mapred.tasktracker.reduce.tasks.maximum 1つの TaskTracker で同時に実行する Reduce タスク数 | 【初期値】 2 【設定値】 次のいずれか大きい方の値
|
mapred.userlog.limit.kb タスクが出力する userlog の最大値 | 【初期値】 0 【設定値】 1024 |
mapred.userlog.retain.hours ジョブ完了以降、userlog を保持しておく時間(単位:時間) | 【初期値】 24 (1日) 【設定値】 168 (1週間) (*1) |
mapreduce.history.server.embedded ジョブヒストリ専用の JVM を起動するか、JobTracker の JVM で動作させるか | 【初期値】 なし 【設定値】 true |
mapreduce.tasktracker.group TaskTracker プロセスが所属するグループ | 【初期値】 なし 【設定値】 hadoop |
mapreduce.tasktracker.outofband.heartbeat タスク完了時にJobtrackerへの生存通知を前倒しするか否か | 【初期値】 false 【設定値】 false (再設定します) |
*1 HADOOP_LOG_DIR の許容量の範囲で指定します。