1.1 MapReduceとは

「MapReduce」は、分割された大量のデータをクラスタで分散処理するためのプログラミングモデルおよびフレームワークです。MapReduceフレームワークでは、以下の3つのステップで分散処理を実現します。

MapタスクとReduceタスクは利用者が作成した任意のアプリケーションを実行することができます。

以下に、MapReduceを用いたバッチ処理の流れを示します。

伝票番号、商品名、販売数からなるデータを入力とし、各商品の合計販売数を出力する処理を例とします。

*:DFSは連携するソフトウェアによって以下のファイルシステムを指します。

Interstage Big Data Parallel Processing Serverと連携する場合
Interstage Big Data Parallel Processing Serverで利用可能な独自の分散ファイルシステム。
Apache hadoopと連携する場合
Hadoop分散ファイルシステム（HDFS：Hadoop Distributed File System）。
図1.1 MapReduceのデータの流れ