ページの先頭行へ戻る
Interstage Big Data Parallel Processing Server V1.2.0 ユーザーズガイド
FUJITSU Software

11.4.2 Reduceタスクで使用するファイル

Reduceタスクで使用するReduce入力データファイルおよびReduce出力データファイルは、外部プログラム実行コマンドラインの引数として指定します。外部プログラム実行コマンドラインはMapReduce設定ファイルで記述します。


Reduceタスクの外部プログラムは、Hadoop入力データファイルに指定した全てのファイルをReduce入力データファイルとして読み込むことができます。また、複数のReduce出力データファイルを書き出すことができます。

以下の例では、異なる2つのHadoop入力データファイルを割り当ててReduceタスクを実行しています。

Shuffle&sortにキーとして数字項目を指定してグループ化しています。Reduceタスクの外部プログラムでは、グループ化されたレコードを読み込んで、同じキーのレコードを結合しています。