11.5.2 MapReduce設定ファイルに指定する情報一覧

MapReduce設定ファイルに設定する項目の一覧を示します。

表11.1 設定項目一覧
カテゴリ	設定名	意味	指定
Hadoopジョブ名の指定	extjoiner.jobname	Hadoopジョブ名	任意
外部プログラムの指定	extjoiner.map.streamprocessor.nn	Mapタスクで実行する外部プログラム	必須 (*1)
外部プログラムの指定	extjoiner.reduce.streamprocessor	Reduceタスクで実行する外部プログラム	必須 (*1)
外部プログラムの再実行を行う復帰値のしきい値	extjoiner.command.retryexitstatus	外部プログラムから返される復帰値により、外部プログラムの再実行を行うかどうかのしきい値を指定します	任意
ジョブをエラーとして扱う復帰値のしきい値	extjoiner.command.jobfailurestatus	外部プログラムから返される復帰値により、ジョブをエラーとするかどうかのしきい値を指定します	任意
環境変数の指定	extjoiner.map.environment	Mapタスクで実行する外部プログラムの環境変数を指定します	任意
環境変数の指定	extjoiner.reduce.environment	Reduceタスクで実行する外部プログラムの環境変数を指定します	任意
入出力ファイルの指定	extjoiner.input.nn.filename	Hadoop入力データファイル名(2)(3)	必須
	mapred.output.dir	Hadoop出力データファイル格納基準ディレクトリ名(*2)	必須
	extjoiner.output.mm.filename	Hadoop出力データファイルディレクトリ名(*2)	必須
出力データファイル格納基準ディレクトリの上書きの指定	extjoiner.output.dir.removeifexist	Hadoop出力データファイル格納基準ディレクトリを上書きするかどうかを指定します	任意
キー情報の指定	extjoiner.sortkey.nn.main	Shuffle&sortで使用する主キーの情報	必須 (*4)
キー情報の指定	extjoiner.sortkey.nn.sub	Shuffle&sortで使用する副キーの情報	任意
Shuffle&sort入力データの扱いの指定	extjoiner.csv.separator	CSVデータのセパレータを指定する	任意
	extjoiner.partitioner.csv.padding	CSVデータの振り分け処理における主キーの空白の扱い	任意
	extjoiner.comparator.csv.padding	CSVデータのソート処理における副キーの空白の扱い	任意
	extjoiner.csv.floatfield	浮動フィールド指定	任意
Map出力データファイル自動ソートの指定	extjoiner.input.sort	Reduceタスクで実行する外部プログラムの指定を省略してもShuffle&sortを動作させる	任意
処理レコード件数のログを取得する	extjoiner.map.input.getRecordCount	Map入力レコード数をログに表示する	任意
	extjoiner.map.output.getRecordCount	Map出力レコード数をログに表示する	任意
	extjoiner.reduce.input.getRecordCount	Reduce入力レコード数をログに表示する	任意
	extjoiner.reduce.output.getRecordCount	Reduce出力レコード数をログに表示する	任意
カレントディレクトリの退避の指定	extjoiner.copyworkingdir	外部プログラムのカレントディレクトリをタスク終了後退避する	任意
バッファサイズの指定	extjoiner.maxbufferrecords	バッファリングを行うレコード数の上限	任意
主キー一覧ファイルの指定	extjoiner.mainkeylist	主キー一覧ファイル名	任意
一意振り分けの指定	extjoiner.partitioner.unique	キーが異なるレコードを、それぞれ異なるReduceタスクへ振り分ける	任意
一意振り分けにおけるキーの上限数の指定	extjoiner.partitioner.unique.max.keys	一意振り分けにおけるキーの上限数	任意
Mapタスク複数ファイル出力モード	extjoiner.map.multioutput	Mapタスクに割り当てた外部プログラムで複数ファイル出力を利用する	任意

(*1)：いずれか片方を省略できます。

(*2)：DFS上のパス名を指定します。

(*3)：ディレクトリ名を指定することもできます。ディレクトリを指定した場合、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます。

(*4)：Shuffle&sortを使用しない場合は省略できます。

表中の「nn」は、Hadoop入力データファイルの個数(ファイルの種類の数)に対応します。また、表中の「mm」は、Hadoop出力データファイルの個数(ファイルの種類の数)に対応します。「nn」と「mm」には、それぞれ01～64の数値を指定します。

以降で各設定名に対する設定値を説明します。