並列分散上で処理を行うためのアプリケーションには、以下の種類があります。
MapReduce アプリケーション
Apache Hadoop の MapReduce フレームワーク上で動作する Java プログラムを、Hadoop API を利用して開発します。
Spark アプリケーション
Apache Spark上で動作するJavaプログラムを、Spark API(RDD、Dataset)を利用して開発します。
Hive クエリ
Hadoop API を利用することなく、The Apache Software Foundationで開発された Apache Hive を利用して、SQL相当の言語(HiveQL)で記述するクエリです。
参考
インストール先ディレクトリ
上記に示すアプリケーションは、マスタサーバ、スレーブサーバ、および開発実行環境サーバの下記ディレクトリにインストールされます。
アプリケーション | インストールディレクトリ | マスタ | スレーブ | 開発実行環境 |
---|---|---|---|---|
MapReduce | /opt/FJSVbsb/bdpp/engine/hadoop | ○ | ○ | ○ |
Spark | /opt/FJSVbsb/bdpp/engine/spark | ○ | × | ○ |
Hive | /opt/FJSVbsb/bdpp/engine/hive | × | × | ○ |
○:インストールされます。
×:インストールされません。
以降では、MapReduce アプリケーションの開発について説明します。その他のアプリケーション開発については、Apache Hadoop プロジェクト、Apache Spark プロジェクト、Apache Hive プロジェクトのWebページなどを参照してください。