ページの先頭行へ戻る
Interstage Big DataParallel Processing Server V1.2.2 ユーザーズガイド
FUJITSU Software

11.5.2 MapReduce設定ファイルに指定する情報一覧

MapReduce設定ファイルに設定する項目の一覧を示します。

表11.1 設定項目一覧

カテゴリ

設定名

意味

指定

Hadoopジョブ名の指定

extjoiner.jobname

Hadoopジョブ名を指定します。

任意

外部プログラムの指定

extjoiner.map.streamprocessor.nn

Mapタスクで実行する外部プログラムを指定します。

必須
(注1)

extjoiner.reduce.streamprocessor

Reduceタスクで実行する外部プログラムを指定します。

外部プログラムの再実行を行う復帰値のしきい値

extjoiner.command.retryexitstatus

外部プログラムから返される復帰値により、外部プログラムの再実行を行うかどうかのしきい値を指定します。

任意

ジョブをエラーとして扱う復帰値のしきい値

extjoiner.command.jobfailurestatus

外部プログラムから返される復帰値により、ジョブをエラーとするかどうかのしきい値を指定します。

任意

環境変数の指定

extjoiner.map.environment

Mapタスクで実行する外部プログラムの環境変数を指定します。

任意

extjoiner.reduce.environment

Reduceタスクで実行する外部プログラムの環境変数を指定します。

任意

入出力ファイルの指定

extjoiner.input.nn.filename

Hadoop入力データファイル名を指定します。(注2)(注3)

必須

mapred.output.dir

Hadoop出力データファイル格納基準ディレクトリ名を指定します。(注2)

必須

extjoiner.output.mm.filename

Hadoop出力データファイルディレクトリ名を指定します。(注2)

必須

出力データファイル格納基準ディレクトリの上書きの指定

extjoiner.output.dir.removeifexist

Hadoop出力データファイル格納基準ディレクトリを上書きするかどうかを指定します。

任意

キー情報の指定

extjoiner.sortkey.nn.main

Shuffle&sortで使用する主キーの情報を指定します。

必須
(注4)

extjoiner.sortkey.nn.sub

Shuffle&sortで使用する副キーの情報を指定します。

任意

Shuffle&sort入力データの扱いの指定

extjoiner.csv.separator

CSVデータのセパレータを指定します。

任意

extjoiner.partitioner.csv.padding

CSVデータの振り分け処理における主キーの空白の扱いを指定します。

任意

extjoiner.comparator.csv.padding

CSVデータのソート処理における副キーの空白の扱いを指定します。

任意

extjoiner.csv.floatfield

浮動フィールドを指定します。

任意

Map出力データファイル自動ソートの指定

extjoiner.input.sort

Reduceタスクで実行する外部プログラムの指定を省略してもShuffle&sortを動作させるかどうかを指定します。

任意

処理レコード件数のログを取得する

extjoiner.map.input.getRecordCount

Map入力レコード数をログに表示するかどうかを指定します。

任意

extjoiner.map.output.getRecordCount

Map出力レコード数をログに表示するかどうかを指定します。

任意

extjoiner.reduce.input.getRecordCount

Reduce入力レコード数をログに表示するかどうかを指定します。

任意

extjoiner.reduce.output.getRecordCount

Reduce出力レコード数をログに表示するかどうかを指定します。

任意

カレントディレクトリの退避の指定

extjoiner.copyworkingdir

外部プログラムのカレントディレクトリをタスク終了後退避するかどうかを指定します。

任意

バッファサイズの指定

extjoiner.maxbufferrecords

バッファリングを行うレコード数の上限を指定します。

任意

主キー一覧ファイルの指定

extjoiner.mainkeylist

主キー一覧ファイル名を指定します。

任意

一意振り分けの指定

extjoiner.partitioner.unique

キーが異なるレコードを、それぞれ異なるReduceタスクへ振り分けるかどうかを指定します。

任意

一意振り分けにおけるキーの上限数の指定

extjoiner.partitioner.unique.max.keys

一意振り分けにおけるキーの上限数を指定します。

任意

Mapタスク複数ファイル出力モード

extjoiner.map.multioutput

Mapタスクに割り当てた外部プログラムで複数ファイル出力を利用するかどうかを指定します。

任意

Hadoop入力データファイルが0byteの合のMapアプリケーション起動

extjoiner.map.alwaysRun

Hadoop入力データファイルが0byteの場合でもMapアプリケーションを起動するかどうかを指定します。

任意

Hadoop出力データファイルの0byteファイル生成

extjoiner.reduce.alwaysOutput

Hadoop出力データファイルにデータを書き込まなかった場合でも0byteのファイルを生成するかどうかを指定します。

任意

Reduceアプリーションの復帰値返却

extjoiner.reduce.alwaysReturnExitcode

Reduceアプリケーションへの入力レコードが0件である場合でも、Reduceアプリケーションの復帰値をHadoopジョブの復帰値として返却するかどうかを指定します。

任意

注1) いずれか片方を省略できます。

注2) DFS上のパス名を指定します。

注3) ディレクトリ名を指定することもできます。ディレクトリを指定した場合、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます。

注4) Shuffle&sortを使用しない場合は省略できます。

表中の「nn」は、Hadoop入力データファイルの個数(ファイルの種類の数)に対応します。また、表中の「mm」は、Hadoop出力データファイルの個数(ファイルの種類の数)に対応します。「nn」と「mm」には、それぞれ01~64の数値を指定します。

以降で各設定名に対する設定値を説明します。