MapReduce設定ファイルに設定する項目の一覧を示します。
カテゴリ | 設定名 | 意味 | 指定 |
---|---|---|---|
extjoiner.jobname | Hadoopジョブ名を指定します。 | 任意 | |
extjoiner.map.streamprocessor.nn | Mapタスクで実行する外部プログラムを指定します。 | 必須 | |
extjoiner.reduce.streamprocessor | Reduceタスクで実行する外部プログラムを指定します。 | ||
extjoiner.command.retryexitstatus | 外部プログラムから返される復帰値により、外部プログラムの再実行を行うかどうかのしきい値を指定します。 | 任意 | |
extjoiner.command.jobfailurestatus | 外部プログラムから返される復帰値により、ジョブをエラーとするかどうかのしきい値を指定します。 | 任意 | |
extjoiner.map.environment | Mapタスクで実行する外部プログラムの環境変数を指定します。 | 任意 | |
extjoiner.reduce.environment | Reduceタスクで実行する外部プログラムの環境変数を指定します。 | 任意 | |
extjoiner.input.nn.filename | Hadoop入力データファイル名を指定します。(注2)(注3) | 必須 | |
mapred.output.dir | Hadoop出力データファイル格納基準ディレクトリ名を指定します。(注2) | 必須 | |
extjoiner.output.mm.filename | Hadoop出力データファイルディレクトリ名を指定します。(注2) | 必須 | |
extjoiner.output.dir.removeifexist | Hadoop出力データファイル格納基準ディレクトリを上書きするかどうかを指定します。 | 任意 | |
extjoiner.sortkey.nn.main | Shuffle&sortで使用する主キーの情報を指定します。 | 必須 | |
extjoiner.sortkey.nn.sub | Shuffle&sortで使用する副キーの情報を指定します。 | 任意 | |
extjoiner.csv.separator | CSVデータのセパレータを指定します。 | 任意 | |
extjoiner.partitioner.csv.padding | CSVデータの振り分け処理における主キーの空白の扱いを指定します。 | 任意 | |
extjoiner.comparator.csv.padding | CSVデータのソート処理における副キーの空白の扱いを指定します。 | 任意 | |
extjoiner.csv.floatfield | 浮動フィールドを指定します。 | 任意 | |
extjoiner.input.sort | Reduceタスクで実行する外部プログラムの指定を省略してもShuffle&sortを動作させるかどうかを指定します。 | 任意 | |
extjoiner.map.input.getRecordCount | Map入力レコード数をログに表示するかどうかを指定します。 | 任意 | |
extjoiner.map.output.getRecordCount | Map出力レコード数をログに表示するかどうかを指定します。 | 任意 | |
extjoiner.reduce.input.getRecordCount | Reduce入力レコード数をログに表示するかどうかを指定します。 | 任意 | |
extjoiner.reduce.output.getRecordCount | Reduce出力レコード数をログに表示するかどうかを指定します。 | 任意 | |
extjoiner.copyworkingdir | 外部プログラムのカレントディレクトリをタスク終了後退避するかどうかを指定します。 | 任意 | |
extjoiner.maxbufferrecords | バッファリングを行うレコード数の上限を指定します。 | 任意 | |
extjoiner.mainkeylist | 主キー一覧ファイル名を指定します。 | 任意 | |
extjoiner.partitioner.unique | キーが異なるレコードを、それぞれ異なるReduceタスクへ振り分けるかどうかを指定します。 | 任意 | |
extjoiner.partitioner.unique.max.keys | 一意振り分けにおけるキーの上限数を指定します。 | 任意 | |
extjoiner.map.multioutput | Mapタスクに割り当てた外部プログラムで複数ファイル出力を利用するかどうかを指定します。 | 任意 | |
extjoiner.map.alwaysRun | Hadoop入力データファイルが0byteの場合でもMapアプリケーションを起動するかどうかを指定します。 | 任意 | |
extjoiner.reduce.alwaysOutput | Hadoop出力データファイルにデータを書き込まなかった場合でも0byteのファイルを生成するかどうかを指定します。 | 任意 | |
extjoiner.reduce.alwaysReturnExitcode | Reduceアプリケーションへの入力レコードが0件である場合でも、Reduceアプリケーションの復帰値をHadoopジョブの復帰値として返却するかどうかを指定します。 | 任意 |
注1) いずれか片方を省略できます。
注2) DFS上のパス名を指定します。
注3) ディレクトリ名を指定することもできます。ディレクトリを指定した場合、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます。
注4) Shuffle&sortを使用しない場合は省略できます。
表中の「nn」は、Hadoop入力データファイルの個数(ファイルの種類の数)に対応します。また、表中の「mm」は、Hadoop出力データファイルの個数(ファイルの種類の数)に対応します。「nn」と「mm」には、それぞれ01~64の数値を指定します。
以降で各設定名に対する設定値を説明します。