ページの先頭行へ戻る
Interstage Big Data Parallel Processing Server V1.2.0 ユーザーズガイド
FUJITSU Software

11.5.2 MapReduce設定ファイルに指定する情報一覧

MapReduce設定ファイルに設定する項目の一覧を示します。

表11.1 設定項目一覧

カテゴリ

設定名

意味

指定

Hadoopジョブ名の指定

extjoiner.jobname

Hadoopジョブ名

任意

外部プログラムの指定

extjoiner.map.streamprocessor.nn

Mapタスクで実行する外部プログラム

必須
(*1)

extjoiner.reduce.streamprocessor

Reduceタスクで実行する外部プログラム

外部プログラムの再実行を行う復帰値のしきい値

extjoiner.command.retryexitstatus

外部プログラムから返される復帰値により、外部プログラムの再実行を行うかどうかのしきい値を指定します

任意

ジョブをエラーとして扱う復帰値のしきい値

extjoiner.command.jobfailurestatus

外部プログラムから返される復帰値により、ジョブをエラーとするかどうかのしきい値を指定します

任意

環境変数の指定

extjoiner.map.environment

Mapタスクで実行する外部プログラムの環境変数を指定します

任意

extjoiner.reduce.environment

Reduceタスクで実行する外部プログラムの環境変数を指定します

任意

入出力ファイルの指定

extjoiner.input.nn.filename

Hadoop入力データファイル名(*2)(*3)

必須

mapred.output.dir

Hadoop出力データファイル格納基準ディレクトリ名(*2)

必須

extjoiner.output.mm.filename

Hadoop出力データファイルディレクトリ名(*2)

必須

出力データファイル格納基準ディレクトリの上書きの指定

extjoiner.output.dir.removeifexist

Hadoop出力データファイル格納基準ディレクトリを上書きするかどうかを指定します

任意

キー情報の指定

extjoiner.sortkey.nn.main

Shuffle&sortで使用する主キーの情報

必須
(*4)

extjoiner.sortkey.nn.sub

Shuffle&sortで使用する副キーの情報

任意

Shuffle&sort入力データの扱いの指定

extjoiner.csv.separator

CSVデータのセパレータを指定する

任意

extjoiner.partitioner.csv.padding

CSVデータの振り分け処理における主キーの空白の扱い

任意

extjoiner.comparator.csv.padding

CSVデータのソート処理における副キーの空白の扱い

任意

extjoiner.csv.floatfield

浮動フィールド指定

任意

Map出力データファイル自動ソートの指定

extjoiner.input.sort

Reduceタスクで実行する外部プログラムの指定を省略してもShuffle&sortを動作させる

任意

処理レコード件数のログを取得する

extjoiner.map.input.getRecordCount

Map入力レコード数をログに表示する

任意

extjoiner.map.output.getRecordCount

Map出力レコード数をログに表示する

任意

extjoiner.reduce.input.getRecordCount

Reduce入力レコード数をログに表示する

任意

extjoiner.reduce.output.getRecordCount

Reduce出力レコード数をログに表示する

任意

カレントディレクトリの退避の指定

extjoiner.copyworkingdir

外部プログラムのカレントディレクトリをタスク終了後退避する

任意

バッファサイズの指定

extjoiner.maxbufferrecords

バッファリングを行うレコード数の上限

任意

主キー一覧ファイルの指定

extjoiner.mainkeylist

主キー一覧ファイル名

任意

一意振り分けの指定

extjoiner.partitioner.unique

キーが異なるレコードを、それぞれ異なるReduceタスクへ振り分ける

任意

一意振り分けにおけるキーの上限数の指定

extjoiner.partitioner.unique.max.keys

一意振り分けにおけるキーの上限数

任意

Mapタスク複数ファイル出力モード

extjoiner.map.multioutput

Mapタスクに割り当てた外部プログラムで複数ファイル出力を利用する

任意

(*1):いずれか片方を省略できます。

(*2):DFS上のパス名を指定します。

(*3):ディレクトリ名を指定することもできます。ディレクトリを指定した場合、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます。

(*4):Shuffle&sortを使用しない場合は省略できます。

表中の「nn」は、Hadoop入力データファイルの個数(ファイルの種類の数)に対応します。また、表中の「mm」は、Hadoop出力データファイルの個数(ファイルの種類の数)に対応します。「nn」と「mm」には、それぞれ01~64の数値を指定します。

以降で各設定名に対する設定値を説明します。