11.5.2 MapReduce設定ファイルに指定する情報一覧

MapReduce設定ファイルに設定する項目の一覧を示します。

表11.1 設定項目一覧
カテゴリ	設定名	意味	指定
Hadoopジョブ名の指定	extjoiner.jobname	Hadoopジョブ名を指定します。	任意
外部プログラムの指定	extjoiner.map.streamprocessor.nn	Mapタスクで実行する外部プログラムを指定します。	必須 (注1)
外部プログラムの指定	extjoiner.reduce.streamprocessor	Reduceタスクで実行する外部プログラムを指定します。	必須 (注1)
外部プログラムの再実行を行う復帰値のしきい値	extjoiner.command.retryexitstatus	外部プログラムから返される復帰値により、外部プログラムの再実行を行うかどうかのしきい値を指定します。	任意
ジョブをエラーとして扱う復帰値のしきい値	extjoiner.command.jobfailurestatus	外部プログラムから返される復帰値により、ジョブをエラーとするかどうかのしきい値を指定します。	任意
環境変数の指定	extjoiner.map.environment	Mapタスクで実行する外部プログラムの環境変数を指定します。	任意
環境変数の指定	extjoiner.reduce.environment	Reduceタスクで実行する外部プログラムの環境変数を指定します。	任意
入出力ファイルの指定	extjoiner.input.nn.filename	Hadoop入力データファイル名を指定します。(注2)(注3)	必須
	mapred.output.dir	Hadoop出力データファイル格納基準ディレクトリ名を指定します。(注2)	必須
	extjoiner.output.mm.filename	Hadoop出力データファイルディレクトリ名を指定します。(注2)	必須
出力データファイル格納基準ディレクトリの上書きの指定	extjoiner.output.dir.removeifexist	Hadoop出力データファイル格納基準ディレクトリを上書きするかどうかを指定します。	任意
キー情報の指定	extjoiner.sortkey.nn.main	Shuffle&sortで使用する主キーの情報を指定します。	必須 (注4)
キー情報の指定	extjoiner.sortkey.nn.sub	Shuffle&sortで使用する副キーの情報を指定します。	任意
Shuffle&sort入力データの扱いの指定	extjoiner.csv.separator	CSVデータのセパレータを指定します。	任意
	extjoiner.partitioner.csv.padding	CSVデータの振り分け処理における主キーの空白の扱いを指定します。	任意
	extjoiner.comparator.csv.padding	CSVデータのソート処理における副キーの空白の扱いを指定します。	任意
	extjoiner.csv.floatfield	浮動フィールドを指定します。	任意
Map出力データファイル自動ソートの指定	extjoiner.input.sort	Reduceタスクで実行する外部プログラムの指定を省略してもShuffle&sortを動作させるかどうかを指定します。	任意
処理レコード件数のログを取得する	extjoiner.map.input.getRecordCount	Map入力レコード数をログに表示するかどうかを指定します。	任意
	extjoiner.map.output.getRecordCount	Map出力レコード数をログに表示するかどうかを指定します。	任意
	extjoiner.reduce.input.getRecordCount	Reduce入力レコード数をログに表示するかどうかを指定します。	任意
	extjoiner.reduce.output.getRecordCount	Reduce出力レコード数をログに表示するかどうかを指定します。	任意
カレントディレクトリの退避の指定	extjoiner.copyworkingdir	外部プログラムのカレントディレクトリをタスク終了後退避するかどうかを指定します。	任意
バッファサイズの指定	extjoiner.maxbufferrecords	バッファリングを行うレコード数の上限を指定します。	任意
主キー一覧ファイルの指定	extjoiner.mainkeylist	主キー一覧ファイル名を指定します。	任意
一意振り分けの指定	extjoiner.partitioner.unique	キーが異なるレコードを、それぞれ異なるReduceタスクへ振り分けるかどうかを指定します。	任意
一意振り分けにおけるキーの上限数の指定	extjoiner.partitioner.unique.max.keys	一意振り分けにおけるキーの上限数を指定します。	任意
Mapタスク複数ファイル出力モード	extjoiner.map.multioutput	Mapタスクに割り当てた外部プログラムで複数ファイル出力を利用するかどうかを指定します。	任意
Hadoop入力データファイルが0byteの場合のMapアプリケーション起動	extjoiner.map.alwaysRun	Hadoop入力データファイルが0byteの場合でもMapアプリケーションを起動するかどうかを指定します。	任意
Hadoop出力データファイルの0byteファイル生成	extjoiner.reduce.alwaysOutput	Hadoop出力データファイルにデータを書き込まなかった場合でも0byteのファイルを生成するかどうかを指定します。	任意
Reduceアプリケーションの復帰値返却	extjoiner.reduce.alwaysReturnExitcode	Reduceアプリケーションへの入力レコードが0件である場合でも、Reduceアプリケーションの復帰値をHadoopジョブの復帰値として返却するかどうかを指定します。	任意

注1) いずれか片方を省略できます。

注2) DFS上のパス名を指定します。

注3) ディレクトリ名を指定することもできます。ディレクトリを指定した場合、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます。

注4) Shuffle&sortを使用しない場合は省略できます。

表中の「nn」は、Hadoop入力データファイルの個数(ファイルの種類の数)に対応します。また、表中の「mm」は、Hadoop出力データファイルの個数(ファイルの種類の数)に対応します。「nn」と「mm」には、それぞれ01～64の数値を指定します。

以降で各設定名に対する設定値を説明します。