本製品とSparkの連携方式について説明します。
ユーザーアカウントについて
本製品とSparkの連携で必要になるユーザーアカウントについて説明します。
ユーザー種別 | ユーザー名 | 説明 |
---|---|---|
Spark実行ユーザー | 任意 | Sparkの動作に必要なサービスを実行するユーザー
|
Spark利用ユーザー | 任意 | Sparkのジョブの実行、停止などの操作を行うユーザー
|
file URI schemeの利用
本製品と連携するSparkでは、DFSにアクセスするインターフェースとしてfile URI scheme("file://~")を利用します。
SparkからPDFSに格納したデータを利用する場合(CREATE TABLEなど)、「file://{PDFSのマウントポイント}/」から始まる形式でフルパスを指定してください。
Hive Metastoreとの連携
Hive Metastoreと連携することで、SparkSQLからHiveQLを利用することができるようになります。
SparkSQLでは以下の2種類のクエリ記述方法があります。一般的には、より多くの関数や機能を備えているHiveQLを利用することが推奨されています。
Spark独自のシンプルなSQL
HiveQL
注意
既にHiveで運用しているHive Metastoreを、Sparkから共有して利用することはできません。Spark専用に新規にHive Metastoreを構築する必要があります。