ファイル名は利用するファイルごとに指定します。
設定内容 | 設定名 | 設定値 | 備考 |
---|---|---|---|
Hadoop入力データファイル名 | extjoiner.input.nn.filename | DFS上のファイル名 | 指定必須 ディレクトリを指定した場合は、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます |
Hadoop出力データファイル格納基準ディレクトリ名 | mapred.output.dir | DFS上のディレクトリ名を指定します(*1) | 指定必須 |
Hadoop出力データファイルディレクトリ名 | extjoiner.output.nn.filename | DFS上のディレクトリ名を指定します | 指定必須 Hadoop出力データファイル基準ディレクトリ名の下に、本指定のディレクトリ名が作成され、配下にタスクごとの出力ファイルが格納されます |
Map入力データファイル識別名 | extjoiner.map.input.nn.filename | Mapアプリケーションで使用しているファイル識別名を指定します | Mapアプリケーションを使用しない場合、省略可 |
Map出力データファイル識別名 | extjoiner.map.output.nn.filename | ||
Reduce入力データファイル識別名 | extjoiner.reduce.input.nn.filename | Reduceアプリケーションで使用しているファイル識別名を指定します | Reduceアプリケーションを使用しない場合、省略可 |
Reduce出力データファイル識別名 | extjoiner.reduce.output.nn.filename |
(*1) ディレクトリ名はDFS上のフルパスまたは相対パスで指定できます。相対パスはDFS上のホームディレクトリからの相対パスです。
参考
Hadoop入力データファイル名に指定したファイルは、定義した順番(nn)にレコードがMapReduceアプリケーションに渡されます。
ファイルの突き合わせ処理で複数のHadoop入力データファイルを使用する場合は、マスタファイルを先に定義することで、読み込み待ちが少なくなり性能が向上するとともに、メモリを効率的に利用することができます。
注意
Hadoop入力データファイル名およびHadoop出力データファイルディレクトリ名には、',' および '='を含む文字列を使用することはできません。