pdfs-site.xml ファイルで設定するプロパティについて説明します。
プロパティ | 設定値 |
---|---|
pdfs.fs.local.basedir DFS のマウントディレクトリのパス | 構成ファイル bdpp.conf の BDPP_PDFS_MOUNTPOINT と BDPP_HADOOP_TOP_DIR を連結したパス 例 構成ファイル bdpp.conf が以下の設定の場合、/mnt/pdfs/hadoop になります。 BDPP_PDFS_MOUNTPOINT=/mnt/pdfs BDPP_HADOOP_TOP_DIR=/hadoop |
pdfs.fs.local.homedir DFS 用 FileSystem クラス上でのユーザー用のホームディレクトリパス | /user |
pdfs.security.authorization DFS 独自の MapReduce ジョブユーザー認証を使用するか否か | true |
pdfs.fs.local.buffer.size Read/Write 時のデフォルトバッファサイズ(単位:バイト) | 524288 (512KB) (*1) |
pdfs.fs.local.block.size MapReduce ジョブで各 Map タスクに分割するデータサイズ(単位:バイト) | 268435456 (256MB) |
pdfs.fs.local.posix.umask ファイルまたはディレクトリ作成時に設定するアクセス権にプロセスの umask 値を反映するか否か | true (*2) |
pdfs.fs.local.cache.location キャッシュローカル MapReduce 機能を使用するか否か | true |
pdfs.fs.local.cache.minsize キャッシュローカル MapReduce 機能の対象から除外するファイルのサイズ(単位:バイト) | 1048576 (1MB) |
pdfs.fs.local.cache.procs キャッシュローカル MapReduce 機能により、メモリキャッシュ情報を取得する際の多重実行数 | 40 |
*1 設定値と「C.2 core-site.xml」の io.file.buffer.size 値の大きい方が使用されます。
*2 true:umask 値を使用する(POSIX 互換)/false:umask 値を使用しない(HDFS 互換)
参考
キャッシュローカル MapReduce 機能について
pdfs.fs.local.cache.location を有効(true)にすることで、MapReduce ジョブ起動時に対象ファイルのメモリキャッシュ保持ノード情報を取得し、キャッシュを持っているノードに Map タスクが優先的に割り当てられるようになり Map フェーズ処理が高速になります。
なお、メモリキャッシュ保持ノード情報の取得にはコストがかかるため、pdfs.fs.local.cache.minsize に指定したサイズ未満のファイルは情報を取得しないようにすることができます。