データファイラー

データファイラーとは

登録したデータレイクのデータを、ファイル/ディレクトリー、または、テーブル/カラムで表示します。

これにより、どのようなデータがどこに格納されているのか、全体を容易に把握できます。

また、データを検索しやすくするためにファイルやディレクトリーに任意のタグを設定できます。

格納されたデータをファイル、ディレクトリーとして扱えるデータレイク

SMB
HDFS
Amazon S3

格納されたデータをテーブル、カラムとして扱えるデータベース

Amazon Athena

Amazon S3 を AWS Glue データカタログデータソースとして登録します。

Amazon S3のオブジェクトのデータの扱い方

Amazon S3のオブジェクトのデータの扱い方は、データの特性に合わせて選択してください。

設定方法は、「導入・運用・保守ガイド」を参照してください。

オブジェクトファイル管理

Amazon S3に格納されたオブジェクトをファイルとして扱えます。

画像ファイルや音声ファイルといった非構造化データを扱う場合に適しています。CSVファイルやJSONといった構造化データもファイルとして扱えます。

データベース、テーブル管理

Amazon Athenaの仮想的なテーブルを本製品からクエリで操作できます。

Amazon Athenaで構造化できるデータが対象です。以下の方法で使用できます。

ファイル形式

プロジェクトにクエリをインポートすることで、CSVファイルとして取り込めます。

テーブルのレコードをすべて、または、任意のカラムだけ選択、または、任意のクエリを作成することで、分析に必要なデータだけ取得できます。

クエリをプロジェクトにインポートする際、メタデータファイル(.metadata)はCSVファイルと一緒にプロジェクトに格納されます。

CSVファイルは、メタデータファイルと合わせて分析に使用できます。

メタデータファイル

形式

JSON形式
ファイル名

<インポートしたファイル名>.metadata

メタデータファイルの例

{
  "columns": [
    {
      "name": "string",
      "type": "string"
    },
    {
      "name": "string",
      "type": "string"
    },
    ....
  ],
  "query": "SELECT * FROM table",
  "records": 1022
}

Data frame形式

Jupyter Notebookから、dashライブラリーを利用して直接Amazon Athenaに対してクエリを発行できます。

2.1.1 データファイラー

データファイラーとは

Amazon S3のオブジェクトのデータの扱い方