データ管理者は、各種データソースからデータを収集しデータレイクに格納します。
データ分析者は、データレイクから分析に必要なデータを検索・抽出し、分析を実行するプロジェクトにコピーすることで分析します。本製品ではこのコピー操作をインポートと呼びます。
分析の結果データを他に共有する場合、このデータをデータレイクにコピーします。この操作を本製品ではエクスポートと呼びます。
なお、データレイク・プロジェクトに対して下図のようにクライアントから本製品経由でデータをアップロード・ダウンロードできます。
データを管理します。データ分析システムにおいては、データレイクのデータの整備を行います。
さまざまデータの格納庫やクラウド・他社から分析に必要となるデータを収集
分析者向けにデータを一次加工
データレイクにデータを最適配置(分析者が取り扱いやすい階層を設計・設定)
分析者が検索しやすいようなメタデータの作成(タグ・説明)
データのアクセス権限の設定
注意
本製品はデータレイク内のデータの移動(moveコマンドなど)やファイル名変更時でもタグ・説明などのメタデータ情報が追従しますが、データレイクがAmazon S3やHDFSの場合は追従できません。