ここでは、外部プログラム並列実行機能を使用したサンプルプログラムについて説明します。
サンプルプログラムは、以下の場所の、各サンプル番号の付いたディレクトリに格納されます。コピーして利用してください。
/opt/FJSVbdpp/samples/submitjob/
サンプル1:CSVファイルの突合せ処理
サンプル2:CSVファイルのフィルタリングと集計処理
ポイント
外部プログラム並列実行機能には、以下の2つの実行方法があります。
外部プログラムをDFSに格納して実行する方法
外部プログラムを各スレーブサーバに転送して実行する方法(汎用Hadoopコマンドラインオプションの-filesを使用します)
サンプルプログラムでは、DFSのパスに依存しないように外部プログラムを各スレーブサーバに転送して実行する方法を使用しています。
外部プログラムをDFSに格納して実行する方法を使用する場合は、以下の手順で実行してください。
外部プログラム(jarファイル)をDFSに格納する。
MapReduce設定ファイルの外部プログラムの指定パラメタを、1で格納したDFSのマウントディレクトリの絶対パスで指定するよう修正する。
-filesオプションを指定せずにbdpp_submitjobコマンドを実行する。