2.12.8 入出力ファイルの指定

ファイル名は利用するファイルごとに指定します。

設定内容	設定名 (NAME要素)	設定値 (VALUE要素)	備考
Hadoop入力データファイル名	extjoiner.input.nn.filename	DFS上のファイル名またはディレクトリ名を指定します(*1)	指定必須ディレクトリを指定した場合は、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます
Hadoop出力データファイル格納基準ディレクトリ名	mapred.output.dir	DFS上のディレクトリ名を指定します(*1)	指定必須
Hadoop出力データファイルディレクトリ名	extjoiner.output.nn.filename	DFS上のディレクトリ名を指定します	指定必須 Hadoop出力データファイル基準ディレクトリ名の下に、本指定のディレクトリ名が作成され、配下にタスクごとの出力ファイルが格納されます
Map入力データファイル識別名	extjoiner.map.input.nn.filename	Mapアプリケーションで使用しているファイル識別名を指定します	Mapアプリケーションを使用しない場合、省略可
Map出力データファイル識別名	extjoiner.map.output.nn.filename	Mapアプリケーションで使用しているファイル識別名を指定します	Mapアプリケーションを使用しない場合、省略可
Reduce入力データファイル識別名	extjoiner.reduce.input.nn.filename	Reduceアプリケーションで使用しているファイル識別名を指定します	Reduceアプリケーションを使用しない場合、省略可
Reduce出力データファイル識別名	extjoiner.reduce.output.nn.filename	Reduceアプリケーションで使用しているファイル識別名を指定します	Reduceアプリケーションを使用しない場合、省略可

(*1) ディレクトリ名はDFS上のフルパスまたは相対パスで指定できます。相対パスはDFS上のホームディレクトリからの相対パスです。

参考

Hadoop入力データファイル名に指定したファイルは、定義した順番(nn)にレコードがMapReduceアプリケーションに渡されます。

ファイルの突き合わせ処理で複数のHadoop入力データファイルを使用する場合は、マスタファイルを先に定義することで、読み込み待ちが少なくなり性能が向上するとともに、メモリを効率的に利用することができます。

注意

Hadoop入力データファイル名およびHadoop出力データファイルディレクトリ名には、',' および '='を含む文字列を使用することはできません。