ページの先頭行へ戻る
Data Analytics Smarter Hub V1.1.0 機能説明書
FUJITSU Software

2.1.1 データファイラー

データファイラーとは

登録したデータレイクのデータを、ファイル/ディレクトリー、または、テーブル/カラムで表示します。

これにより、どのようなデータがどこに格納されているのか、全体を容易に把握できます。

また、データを検索しやすくするためにファイルやディレクトリーに任意のタグを設定できます。

格納されたデータをファイル、ディレクトリーとして扱えるデータレイク
  • SMB
  • HDFS
  • Amazon S3
格納されたデータをテーブル、カラムとして扱えるデータベース
  • Amazon Athena

    Amazon S3 を AWS Glue データカタログ データソースとして登録します。

Amazon S3のオブジェクトのデータの扱い方

Amazon S3のオブジェクトのデータの扱い方は、データの特性に合わせて選択してください。

設定方法は、「導入・運用・保守ガイド」を参照してください。

オブジェクトファイル管理

Amazon S3に格納されたオブジェクトをファイルとして扱えます。

画像ファイルや音声ファイルといった非構造化データを扱う場合に適しています。CSVファイルやJSONといった構造化データもファイルとして扱えます。

データベース、テーブル管理

Amazon Athenaの仮想的なテーブルを本製品からクエリで操作できます。

Amazon Athenaで構造化できるデータが対象です。以下の方法で使用できます。

ファイル形式

プロジェクトにクエリをインポートすることで、CSVファイルとして取り込めます。

テーブルのレコードをすべて、または、任意のカラムだけ選択、または、任意のクエリを作成することで、分析に必要なデータだけ取得できます。

クエリをプロジェクトにインポートする際、メタデータファイル(.metadata)はCSVファイルと一緒にプロジェクトに格納されます。

CSVファイルは、メタデータファイルと合わせて分析に使用できます。

メタデータファイル
  • 形式

    JSON形式

  • ファイル名

    <インポートしたファイル名>.metadata

  • メタデータファイルの例

    {
      "columns": [
        {
          "name": "string",
          "type": "string"
        },
        {
          "name": "string",
          "type": "string"
        },
        ....
      ],
      "query": "SELECT * FROM table",
      "records": 1022
    }
Data frame形式
Jupyter Notebookから、dashライブラリーを利用して直接Amazon Athenaに対してクエリを発行できます。