MapReduce設定ファイルに設定する項目の一覧を示します。
カテゴリ | 設定名 | 意味 | 指定 |
---|---|---|---|
extjoiner.jobname | Hadoopジョブ名 | 任意 | |
extjoiner.map.streamprocessor.nn | Mapタスクで実行する外部プログラム | 必須 | |
extjoiner.reduce.streamprocessor | Reduceタスクで実行する外部プログラム | ||
extjoiner.command.retryexitstatus | 外部プログラムから返される復帰値により、外部プログラムの再実行を行うかどうかのしきい値を指定します | 任意 | |
extjoiner.command.jobfailurestatus | 外部プログラムから返される復帰値により、ジョブをエラーとするかどうかのしきい値を指定します | 任意 | |
extjoiner.map.environment | Mapタスクで実行する外部プログラムの環境変数を指定します | 任意 | |
extjoiner.reduce.environment | Reduceタスクで実行する外部プログラムの環境変数を指定します | 任意 | |
extjoiner.input.nn.filename | Hadoop入力データファイル名(*2)(*3) | 必須 | |
mapred.output.dir | Hadoop出力データファイル格納基準ディレクトリ名(*2) | 必須 | |
extjoiner.output.mm.filename | Hadoop出力データファイルディレクトリ名(*2) | 必須 | |
extjoiner.output.dir.removeifexist | Hadoop出力データファイル格納基準ディレクトリを上書きするかどうかを指定します | 任意 | |
extjoiner.sortkey.nn.main | Shuffle&sortで使用する主キーの情報 | 必須 | |
extjoiner.sortkey.nn.sub | Shuffle&sortで使用する副キーの情報 | 任意 | |
extjoiner.csv.separator | CSVデータのセパレータを指定する | 任意 | |
extjoiner.partitioner.csv.padding | CSVデータの振り分け処理における主キーの空白の扱い | 任意 | |
extjoiner.comparator.csv.padding | CSVデータのソート処理における副キーの空白の扱い | 任意 | |
extjoiner.csv.floatfield | 浮動フィールド指定 | 任意 | |
extjoiner.input.sort | Reduceタスクで実行する外部プログラムの指定を省略してもShuffle&sortを動作させる | 任意 | |
extjoiner.map.input.getRecordCount | Map入力レコード数をログに表示する | 任意 | |
extjoiner.map.output.getRecordCount | Map出力レコード数をログに表示する | 任意 | |
extjoiner.reduce.input.getRecordCount | Reduce入力レコード数をログに表示する | 任意 | |
extjoiner.reduce.output.getRecordCount | Reduce出力レコード数をログに表示する | 任意 | |
extjoiner.copyworkingdir | 外部プログラムのカレントディレクトリをタスク終了後退避する | 任意 | |
extjoiner.maxbufferrecords | バッファリングを行うレコード数の上限 | 任意 | |
extjoiner.mainkeylist | 主キー一覧ファイル名 | 任意 | |
extjoiner.partitioner.unique | キーが異なるレコードを、それぞれ異なるReduceタスクへ振り分ける | 任意 | |
extjoiner.partitioner.unique.max.keys | 一意振り分けにおけるキーの上限数 | 任意 | |
extjoiner.map.multioutput | Mapタスクに割り当てた外部プログラムで複数ファイル出力を利用する | 任意 |
(*1):いずれか片方を省略できます。
(*2):DFS上のパス名を指定します。
(*3):ディレクトリ名を指定することもできます。ディレクトリを指定した場合、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます。
(*4):Shuffle&sortを使用しない場合は省略できます。
表中の「nn」は、Hadoop入力データファイルの個数(ファイルの種類の数)に対応します。また、表中の「mm」は、Hadoop出力データファイルの個数(ファイルの種類の数)に対応します。「nn」と「mm」には、それぞれ01~64の数値を指定します。
以降で各設定名に対する設定値を説明します。