3.2 アプリケーションの開発

従来、大量データの並列分散処理を実現するためには、同期処理などの複雑なプログラムを作成する必要がありました。Apache Hadoop では、並列分散処理を考慮したプログラムを作成する必要はありません。利用者は、MapReduce アルゴリズムにしたがって Map 処理とReduce 処理の2つをアプリケーションとして作成するだけです。データの分散格納・抽出や作成した処理の並列実行は、すべて Apache Hadoopが担っています。さらに、Apache Spark では、複雑な処理を、Map処理とreduce処理の複数のジョブを組み合わせることなく、一連のフローとして記述することができます。