分析の目的ごとに分析のデータや分析スクリプト、モデル、分析結果、実行環境をカプセル化し、データ分析者間で管理・共有・再利用できる基本単位です。
プロジェクトでは、以下の3つの環境を利用できます。プロジェクト内で同時に利用できます。
プロジェクトは、分析のデータや分析スクリプトを格納するディレクトリーとして構成されています。
分析の入力となるファイルや分析の結果生成された出力ファイルをプロジェクトに格納する専用ディレクトリーを提供します。このディレクトリーに対してWeb UIからアップロード・ダウンロード・削除・名前の変更など、ファイルを操作できます。
プロジェクトにアクセス可能なメンバーを設定し、メンバー間で共同作業できます。
またプロジェクトに公開範囲を設定することで、メンバー以外のユーザーに対して参照権限を設定し、プロジェクトを共有できます。
「プロジェクトに対する参照権限の設定 (公開範囲)」を参照してください。
プロジェクト全体を1つのgitリポジトリーとして設定し、プロジェクトに含まれるデータを世代管理できます。
これにより過去の分析を取り出すことや、再実行できます。
任意のタイミングで世代管理の有効化・無効化を設定できます。
ただしgitによる世代管理は性質上、大きなファイルを扱うと性能の低下が著しいため、分析対象データ容量は1ファイル当たり100MB程度までを推奨します。
データレイクからファイルやディレクトリーをプロジェクトにインポートできます。
注意
1つのディレクトリーの中にあるファイルまたはディレクトリーが100000個を越える場合、インポートできるのは100000個までです。
ディレクトリーが階層化されている場合、1つのディレクトリー内で100000個以下であれば、合計のファイル数が100000個を越えることは問題ありません。
プロジェクトからデータレイクにエクスポートできます。
インポートしたファイル、およびインポートしたディレクトリー配下のすべてのファイルはリードオンリーです。
プロジェクトに対して専用のコンテナを1つ割り当てることで、他のプロジェクトに影響されない実行環境の管理できます。任意のタイミングでコンテナを割り当てられます。
「2.2.3 コンテナ」を参照してください。
Web UI上で分析・加工の処理を記述したタスクを接続することでフローを作成し実行できます。
「2.2.4 フロー」を参照してください。
分析成果やレポートなどのファイルの中身をアウトカムとして保存し、表示します。
プロジェクトの[概要]画面に表示されます。
プロジェクトのデータや分析スクリプト、モデル分析結果は各プロジェクトのディレクトリーに保存されます。
各ユーザーのアクセス可能なすべてのプロジェクトのディレクトリーが配置されるディレクトリーをプロジェクトのルートディレクトリーと呼びます。
プロジェクトのディレクトリーは、Web UIで対象プロジェクトの[ファイル]からアクセスできます。
また、Windowsツール連携、フロー、コンテナからアクセスできます。
このプロジェクトのルートディレクトリーをユーザーのクライアントPCにネットワークマウントすることでWindowsツールとの連携を実現します。
プロジェクトに対してメンバーを追加し、共同で作業できます。
属性 | 説明 |
---|---|
オーナー |
以下の操作ができるメンバーです。
|
参加 |
プロジェクトの参加メンバーです。 プロジェクトのプロパティは編集できますが、プロジェクトの削除、メンバーの追加と削除、公開範囲の変更はできません。 |
参加外 |
プロジェクトに参加していないユーザーです。 プロジェクトの参照権限に応じて読み込みできます。 |
プロジェクトの参加外のユーザーに対して、どのような参照権限を与えるか設定できます。
プロジェクトへのアクセス権限は、プロジェクトに対する参加、およびプロジェクトの公開範囲によって決まります。
アイコン | 参照権限名 | 説明 |
---|---|---|
![]() |
プライベート | プロジェクトの参加メンバーだけ参照できるプロジェクトです。 |
![]() |
概要だけ公開 | プロジェクトに参加していないユーザーでも、プロジェクトの[概要]画面だけ参照できるプロジェクトです。 |
![]() |
パブリック |
公開範囲が"パブリック"、または"概要だけ公開"に設定されているプロジェクトです。 プロジェクトに参加していないユーザーでも、プロジェクト全体の参照、およびプロジェクトをクローンできます。クローンしたプロジェクトは編集できます。 |
データレイクのデータをプロジェクトにインポートします。これをデータの取り込みとよびます。
データの取り込み方式には、以下の2つがあります。
データレイクのデータをコピーします。
データレイク側のファイルが変更されたとしても、プロジェクトにあるコピーには影響を受けません。
どこからコピーしてきたかの情報は記録され、再度同じファイルをコピーできます。(re-import)
分析者が所望するタイミングで最新のデータを容易に再度取り込めます。
コピーに時間はかかりますが、データはプロジェクトの世代管理の対象となるため、再現性を確保できます。
データベースをデータレイクの接続先に指定して利用する場合、Copyを推奨します。
データレイクのデータをコピーせずにデータに対するリンクを作成します。
コピーの時間は短縮できますが、リンクしたデータは世代管理の対象にはなりません。
また、分析実行時にデータレイク上の最新データを参照するため、常に最新データによる分析を実施できます。
プロジェクト作成時にデータの取り込み方式でLinkを選択してデータを取り込んだ場合、操作するユーザーのアカウント情報を、クレデンシャル情報として委譲します。
また、リンクを介してデータレイクを参照する場合、プロジェクトの[ファイル]からは常に最新のデータレイクにアクセスできますが、コンテナとフローからのアクセスは内部的にキャッシュされ、最長5分間だけ過去の状態が見えることがあります。