2.12.2 MapReduce設定ファイルに指定する情報一覧

MapReduce設定ファイルに設定する項目の一覧を示します。

表2.1 設定項目一覧
	設定名	意味
Hadoopジョブ名の指定	extjoiner.jobname	Hadoopジョブ名
MapReduceアプリケーションの指定	extjoiner.map.streamprocessor.nn	Mapアプリケーション名
MapReduceアプリケーションの指定	extjoiner.reduce.streamprocessor	Reduceアプリケーション名
アプリケーションの再実行を行う復帰値のしきい値	extjoiner.command.retryexitstatus	MapReduceアプリケーションから返される復帰値により、MapReduceアプリケーションの再実行を行うかどうかのしきい値を指定します
ジョブをエラーとして扱う復帰値のしきい値	extjoiner.command.jobfailurestatus	MapReduceアプリケーションから返される復帰値により、ジョブをエラーとするかどうかのしきい値を指定します
環境変数の指定	extjoiner.map.environment	Mapアプリケーションの環境変数を指定します
環境変数の指定	extjoiner.reduce.environment	Reduceアプリケーションの環境変数を指定します
入出力ファイルの指定	extjoiner.input.nn.filename	Hadoop入力データファイル名 (1)(2)
	mapred.output.dir	Hadoop出力データファイル基準ディレクトリ名(*1)
	extjoiner.output.nn.filename	Hadoop出力データファイルディレクトリ名(*1)
	extjoiner.map.input.nn.filename	Map入力データファイル識別名(*3)
	extjoiner.map.output.nn.filename	Map出力データファイル識別名(*3)
	extjoiner.reduce.input.nn.filename	Reduce入力データファイル識別名(*3)
	extjoiner.reduce.output.nn.filename	Reduce出力データファイル識別名(*3)
出力データファイル基準ディレクトリの上書きの指定	extjoiner.output.dir.removeifexist	Hadoop出力データファイル基準ディレクトリを上書きするかどうかを指定します
ファイル編成の指定	extjoiner.input.nn.format	Hadoop入力データファイルのファイル編成
	extjoiner.output.nn.format	Hadoop出力データファイルのファイル編成
	extjoiner.map.output.nn.format	Map出力データファイルのファイル編成
	extjoiner.reduce.input.nn.format	Reduce入力データファイルのファイル編成
レコード順固定長ファイルのレコード長の指定	extjoiner.input.nn.recordlength	Hadoop入力データファイルのレコード長
	extjoiner.output.nn.recordlength	Hadoop出力データファイルのレコード長
	extjoiner.map.output.nn.recordlength	Map出力データファイルのレコード長
	extjoiner.reduce.input.nn.recordlength	Reduce入力データファイルのレコード長
レコード順可変長ファイルのレコード長情報ファイルの指定	extjoiner.input.nn.recinfdir	Hadoop入力データファイルのレコード長情報ファイルの格納ディレクトリ名(*1)
行順ファイルの文字コードの指定	extjoiner.input.nn.codeset	Hadoop入力データファイルの文字コード
	extjoiner.output.nn.codeset	Hadoop出力データファイルの文字コード
	extjoiner.map.output.nn.codeset	Map出力データファイルの文字コード
	extjoiner.reduce.input.nn.codeset	Reduce入力データファイルの文字コード
キー情報の指定	com.fujitsu.netcobol.hadoop.sortkey.nn.main	Shuffle&sortで使用する主キーの情報
	com.fujitsu.netcobol.hadoop.sortkey.nn.sub	Shuffle&sortで使用する副キーの情報
	com.fujitsu.netcobol.hadoop.sortkey.nn.colseq	ASCIIコードの並び順
	com.fujitsu.netcobol.hadoop.sortkey.nn.decimal	SEPARATE指定なしの外部10進項目の並び順
	com.fujitsu.netcobol.hadoop.sortkey.nn.float	内部浮動小数点の並び順
主キー一覧ファイルの指定	extjoiner.mainkeylist	主キー一覧ファイル名
一意振り分けの指定	extjoiner.partitioner.unique	主キーが異なるレコードを、それぞれ異なるReduceタスクへ振り分ける
一意振り分けにおけるキーの上限数の指定	extjoiner.partitioner.unique.max.keys	一意振り分けにおけるキーの上限数
CSV形式データの扱いの指定	extjoiner.csv.separator	CSVデータのセパレータを指定する
	extjoiner.partitioner.csv.padding	CSVデータの振り分け処理における主キーの空白の扱い
	extjoiner.comparator.csv.padding	CSVデータのソート処理におけるキーの空白の扱い
	extjoiner.csv.floatfield	浮動フィールド指定
Map出力データファイル自動ソートの指定	extjoiner.input.sort	Reduceアプリケーションの指定を省略してもShuffle&sortを動作させる
処理レコード件数のログを取得する	extjoiner.map.input.getRecordCount	Map入力レコード数をログに表示する
	extjoiner.map.output.getRecordCount	Map出力レコード数をログに表示する
	extjoiner.reduce.input.getRecordCount	Reduce入力レコード数をログに表示する
	extjoiner.reduce.output.getRecordCount	Reduce出力レコード数をログに表示する
カレントディレクトリの退避の指定	extjoiner.copyworkingdir	MapReduceアプリケーションのカレントディレクトリをタスク終了後退避する
バッファサイズの指定	extjoiner.maxbufferrecords	バッファリングを行うレコード数の上限
Mapタスク複数ファイル出力モード	extjoiner.map.multioutput	Mapタスクに割り当てたアプリケーションで複数ファイル出力を利用する
Hadoop入力データファイルが0バイトの場合のMapアプリケーション起動	extjoiner.map.alwaysRun	Hadoop入力データファイルが0バイトの場合でもMapアプリケーションを起動する
Hadoop入力データファイルが0バイトの場合のReduceアプリケーションの復帰値返却	extjoiner.reduce.alwaysReturnExitcode	Hadoop入力データファイルが0バイトの場合でもReduceアプリケーションの復帰値をHadoopジョブの復帰値として返却する
Hadoop出力データファイルの0バイトファイル生成	extjoiner.reduce.alwaysOutput	Hadoop出力データファイルにデータを書き込まなかった場合でも0バイトのファイルを生成する

(*1)：DFS上のパス名を指定します。

(*2)：ディレクトリ名を指定することもできます。ディレクトリを指定した場合、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます。

(*3)：MapReduceアプリケーションで使用しているファイル識別名を指定します。

表中の「nn」は、Hadoop入力データファイルの個数に対応します。「nn」には、01～64の数値を指定します。

以降で各設定名に対する設定値を説明します。