ファイル名は利用するファイルごとに指定します。
設定内容 | 設定名 | 設定値 | 備考 |
---|---|---|---|
Hadoop入力データファイル名 | extjoiner.input.nn.filename | DFS上のファイル名 | 指定必須 ディレクトリを指定した場合は、そのディレクトリ内のファイルすべてが入力ファイルとして扱われます |
Hadoop出力データファイル格納基準ディレクトリ名 | mapred.output.dir | DFS上のディレクトリ名を指定します(*1) | 指定必須 |
Hadoop出力データファイルディレクトリ名 | extjoiner.output.mm.filename | DFS上のディレクトリ名を指定します | 指定必須 Hadoop出力データファイル格納基準ディレクトリ名の下に、本指定のディレクトリ名が作成され、配下にタスクごとの出力ファイルが格納されます |
(*1) ディレクトリ名はDFS上のフルパスまたは相対パスで指定できます。相対パスはDFS上のホームディレクトリからの相対パスです。
参考
Hadoop入力データファイル名に指定したファイルは、定義した順番(nn)にレコードが外部プログラムに渡されます。
ファイルの突き合わせ処理などで複数のHadoop入力データファイルを使用する場合は、サイズの小さいマスタファイルなどを先に定義することで、読み込み待ちが少なくなり性能が向上するとともに、メモリを効率的に利用することができます。
注意
Hadoop入力データファイル名およびHadoop出力データファイルディレクトリ名には、',' および '='を含む文字列を使用することはできません。