3.3 サンプル3 物理順ファイルの集計処理

ここでは、この製品で提供されているサンプルプログラム-サンプル3-について説明します。

Mapアプリケーション
トランザクションファイル(物理順)をレコード順ファイルに変換する
Reduceアプリケーション
トランザクションファイル(レコード順)を読み込み、店舗ごとの合計個数を求める
計算結果(レコード順)を物理順ファイルに変換する
後処理
出力ファイル(物理順)のマージ

実行方法

ブロックサイズ、Mapタスク数は環境に応じて適切に変更してください。

# Reduceアプリケーションのコンパイル
$ make
  # レコード長情報ファイルの作成
$ cobgenrecinf.sh -p -i `pwd`/input/hostdata -o recinf -b 67108864 -t 2
  # 入力データをDFSにコピー
$ hadoop dfs -put input/hostdata  sample3/input
  # レコード長情報ファイルをDFSにコピー
$ hadoop dfs -put recinf/hostdata.dat sample3_recinf/input.dat
  # ジョブの実行
$ cobhadoop.sh -conf conf/configuration.conf -files
  src/map.sh,reduce.exe,src/reduce.sh,conf/input_cnv.format,conf/output_cnv.format
  # 実行結果をローカルにコピー
$ hadoop dfs -copyToLocal sample3_out output
  # 出力ファイルのマージ
$ bsort -m -z16 -4.3asca -o marge_output output/outfile/part-*