サンプル2-CSVファイルのフィルタリングと集計処理は、Mapタスク・Reduceタスクで実行する外部プログラムでそれぞれ以下の処理を行います。
Mapタスクで実行する外部プログラム
トランザクションファイルを読み込み、個数が100未満のデータを除去する
Reduceタスクで実行する外部プログラム
トランザクションファイルを読み込み、店舗ごとの合計個数を求める
実行方法
# Hadoop入力データをDFSにコピー $ hadoop dfs -put ./sample2_input sample2_input # Hadoopジョブの実行 $ /opt/FJSVbdpp/bin/bdpp_submitjob -conf ./conf/configuration.conf -files ./lib/sample2.jar # 実行結果をローカルにコピー $ hadoop dfs -copyToLocal sample2_output ./sample2_output