ページの先頭行へ戻る
Data Analytics Smarter Hub V1.1.0 機能説明書
FUJITSU Software

2.1 データ管理

データ管理の流れ

データ管理者は、各種データソースからデータを収集しデータレイクに格納します。

データ分析者は、データレイクから分析に必要なデータを検索・抽出し、分析を実行するプロジェクトにコピーすることで分析します。本製品ではこのコピー操作をインポートと呼びます。

分析の結果データを他に共有する場合、このデータをデータレイクにコピーします。この操作を本製品ではエクスポートと呼びます。

なお、データレイク・プロジェクトに対して下図のようにクライアントから本製品経由でデータをアップロード・ダウンロードできます。

図 2.1 データ管理の流れ
データ管理の流れ
データ管理者の役割

データを管理します。データ分析システムにおいては、データレイクのデータの整備を行います。

  • さまざまデータの格納庫やクラウド・他社から分析に必要となるデータを収集

  • 分析者向けにデータを一次加工

  • データレイクにデータを最適配置(分析者が取り扱いやすい階層を設計・設定)

  • 分析者が検索しやすいようなメタデータの作成(タグ・説明)

  • データのアクセス権限の設定

注意

本製品はデータレイク内のデータの移動(moveコマンドなど)やファイル名変更時でもタグ・説明などのメタデータ情報が追従しますが、データレイクがAmazon S3やHDFSの場合は追従できません。