I.1.2 Sparkとの連携方式について

本製品とSparkの連携方式について説明します。

ユーザーアカウントについて

本製品とSparkの連携で必要になるユーザーアカウントについて説明します。

ユーザー種別	ユーザー名	説明
Spark実行ユーザー	任意	Sparkの動作に必要なサービスを実行するユーザー Sparkクラスタで1つ作成します。ユーザー名、ユーザーID、グループ名、グループIDは全ノード間で統一する必要があります。 Spark実行ユーザーのグループID、グループ名はHadoop利用ユーザーのグループID、グループ名と同じ値にする必要があります。
Spark利用ユーザー	任意	Sparkのジョブの実行、停止などの操作を行うユーザー複数のアカウントを登録することができます。ユーザー名、ユーザーID、グループ名、グループIDは全ノード間で統一する必要があります。 Spark利用ユーザーのグループID、グループ名はSpark実行ユーザーのループID、グループ名と同じ値にする必要があります。

ユーザー種別

ユーザー名

説明

Spark実行ユーザー

任意

Sparkの動作に必要なサービスを実行するユーザー

Spark利用ユーザー

任意

Sparkのジョブの実行、停止などの操作を行うユーザー

file URI schemeの利用

本製品と連携するSparkでは、DFSにアクセスするインタフェースとしてfile URI scheme("file://～")を利用します。

SparkからPDFSに格納したデータを利用する場合(CREATE TABLEなど)、「file://{PDFSのマウントポイント}/」から始まる形式でフルパスを指定してください。

Hive Metastoreとの連携

Hive Metastoreと連携することで、SparkSQLからHiveQLを利用することができるようになります。

SparkSQLでは以下の2種類のクエリ記述方法があります。一般的には、より多くの関数や機能を備えているHiveQLを利用することが推奨されています。

注意

既にHiveで運用しているHive Metastoreを、Sparkから共有して利用することはできません。Spark専用に新規にHive Metastoreを構築する必要があります。