ページの先頭行へ戻る
Interstage Big Data Parallel Processing Server V1.2.1 ユーザーズガイド
FUJITSU Software

I.1.2 Sparkとの連携方式について

本製品とSparkの連携方式について説明します。


ユーザーアカウントについて

本製品とSparkの連携で必要になるユーザーアカウントについて説明します。

ユーザー種別

ユーザー名

説明

Spark実行ユーザー

任意

Sparkの動作に必要なサービスを実行するユーザー

  • Sparkクラスタで1つ作成します。

  • ユーザー名、ユーザーID、グループ名、グループIDは全ノード間で統一する必要があります。

  • Spark実行ユーザーのグループID、グループ名はHadoop利用ユーザーのグループID、グループ名と同じ値にする必要があります。

Spark利用ユーザー

任意

Sparkのジョブの実行、停止などの操作を行うユーザー

  • 複数のアカウントを登録することができます。

  • ユーザー名、ユーザーID、グループ名、グループIDは全ノード間で統一する必要があります。

  • Spark利用ユーザーのグループID、グループ名はSpark実行ユーザーのループID、グループ名と同じ値にする必要があります。


file URI scheme利用

本製品と連携するSparkでは、DFSにアクセスするインタフェースとしてfile URI scheme("file://~")を利用します。

SparkからPDFSに格納したデータを利用する場合(CREATE TABLEなど)、「file://{PDFSのマウントポイント}/」から始まる形式でフルパスを指定してください。


Hive Metastoreとの連携

Hive Metastoreと連携することで、SparkSQLからHiveQLを利用することができるようになります。

SparkSQLでは以下の2種類のクエリ記述方法があります。一般的には、より多くの関数や機能を備えているHiveQLを利用することが推奨されています。

注意

既にHiveで運用しているHive Metastoreを、Sparkから共有して利用することはできません。Spark専用に新規にHive Metastoreを構築する必要があります。