並列分散上で処理を行うためのアプリケーションには、以下の種類があります。
MapReduce アプリケーション
Apache Hadoop の MapReduce フレームワーク上で動作する Java プログラムを、Hadoop API を利用して開発します。
Spark アプリケーション
Apache Spark上で動作するJavaプログラムを、Spark API(RDD、Dataset)を利用して開発します。
参考
インストール先ディレクトリ
上記に示すアプリケーションは、マスタサーバ、スレーブサーバ、および開発実行環境サーバの下記ディレクトリにインストールされます。
アプリケーション | インストールディレクトリ | マスタサーバ | スレーブ | 開発実行環境 |
---|---|---|---|---|
MapReduce | /opt/FJSVbsb/bdpp/engine/hadoop | ○ | ○ | ○ |
Spark | /opt/FJSVbsb/bdpp/engine/spark | ○ | × | ○ |
○:インストールされます。
×:インストールされません。
以降では、MapReduce アプリケーションの開発について説明します。その他のアプリケーション開発については、Apache Hadoop プロジェクト、Apache Spark プロジェクトのWebページなどを参照してください。