1.4.1 analyze用動作環境ファイル

shunanalyzeコマンドに対する入力ファイル、出力ファイルなどを記述します。

実行パラメタの種類と意味

以下に、analyze用動作環境ファイルの実行パラメタを示します。

注意

analyze用動作環境ファイルの内容はシステムロケールの文字コードで記述してください。
パラメタ名は行の先頭から記述してください。

パラメタ名	省略	説明
InFile	可	入力ファイルまたは入力ファイルが配置されたディレクトリを指定します。(注) 本パラメタは複数行にまたがって定義できます。本パラメタを省略した場合、標準入力よりデータを読み込みます。
SkipHeader	可	入力ファイルの見出し行の扱いを指定します。 0 : 見出し行を読み飛ばさない 1 : 見出し行を読み飛ばす入力ファイルタイプがCSVの場合に有効です。本パラメタを省略した場合、0が指定されたとみなします。
OutFile	可	出力ファイルを指定します。(注) 本パラメタを省略した場合、標準出力に出力します。指定したファイルがすでに存在する場合は上書きします。
WorkFolder	可	一時ファイルを格納する作業ディレクトリを指定します。(注) 本パラメタを省略した場合は、集計条件ファイルのMemorySizeパラメタの指定によって動作が異なります。
LogFile	可	ログファイルを指定します。(注) 本パラメタを省略した場合、ログ出力を行いません。本パラメタを指定した場合、指定されたログファイルに追記出力します。
ParallelNum	可	複数の入力ファイルを同時に集計するための並列数を指定します。本パラメタを省略した場合、1が指定されたとみなします。
QuotationMarkMode	可	出力データの中の文字列値を、二重引用符(")で括るかどうかを指定します。 0 : 二重引用符(")で括る 1 : 二重引用符(")で括らない出力ファイルタイプがCSVの場合に有効です。本パラメタを省略した場合、0が指定されたとみなします。
FieldSeparator	可	入力ファイルタイプがCSVの場合、項目間の区切り文字を二重引用符（"）で囲んで指定します。入力ファイルタイプがXMLの場合は指定できません。本パラメタを省略した場合は、項目間の区切り文字としてカンマ（,）が指定されたとみなします。
FieldSeparatorMode	可	入力ファイルタイプがCSVの場合、2つ以上の連続した区切り文字の扱いを指定します。 0 : 1つの区切り文字を1つの項目間の区切りとして扱う。 1 : 2つ以上の連続した区切り文字を1つの項目間の区切りとして扱う。入力ファイルタイプがXMLの場合は指定できません。本パラメタを省略した場合、0が指定されたとみなします。
ErrFile	可	入力ファイル中にエラーデータを検出したときの、エラーデータ出力ファイルを指定します。(注) また、エラーデータの最大出力件数を指定できます。入力ファイルタイプがXMLの場合は指定できません。本パラメタを省略した場合、エラーデータを検出したとき、コマンドが異常終了します。
Function	可	ユーザーが定義した関数（ユーザー定義関数）を使ってデータを処理する場合に指定します。本パラメタを省略した場合、ユーザー定義関数を記述しても構文エラーとなります。
OutLineFeedCode	可	出力データにおける、レコード終端の改行コードの取り扱いを指定します。 LF : Lf（0x0A） CRLF : Cr（0x0D）Lf（0x0A）本パラメタを省略した場合、Windows では“CRLF”、 Linux/Solaris では “LF”が指定されたとみなします。ただし、入力データの内容(XMLの要素やCSVの項目内容など)にある改行コードは対象外で、入力データ中と同じ改行文字が出力されます。

注) ファイル名またはディレクトリ名に特殊な文字を指定した場合の扱いについては、 “パス名に指定する特殊な文字の扱い”を参照してください。

InFile

入力ファイル、または、入力ファイルが配置されたディレクトリを指定します。入力ファイルとディレクトリは、混在指定できます。

図1.25 入力ファイルタイプがCSVの場合

図1.26 入力ファイルタイプがXMLの場合

スキーマ情報ファイル名

集計条件ファイルのInFileTypeパラメタがCSVの場合に、入力ファイルの項目名を記述したスキーマ情報ファイルを指定します。
スキーマ情報ファイルに標準入力は指定できません。

物理ファイル名

入力ファイルを指定します。物理ファイル名またはディレクトリ名を指定しない場合(""を記述)、標準入力より入力します。
物理ファイル名の先頭に"pipe@"を記述することで、入力ファイルに名前付きパイプを指定できます。

ディレクトリ名

入力ファイルが配置されたディレクトリを指定します。ディレクトリ名または物理ファイル名を指定しない場合(""を記述)、標準入力より入力します。
物理ファイル名とディレクトリ名の混在も指定可能です。

InFileパラメタの規約を以下に説明します。

本パラメタを省略した場合、物理ファイル名を省略した場合、またはディレクトリ名を省略した場合は標準入力より入力します。物理ファイルとディレクトリの混在も指定可能です。
集計条件ファイルのInFileTypeパラメタがCSVの場合で、スキーマ情報を指定する場合は、スキーマ情報ファイル名と各物理ファイル名またはディレクトリ名をセミコロン(;)で接続します。
集計条件ファイルのInFileTypeパラメタがCSVの場合で、スキーマ情報を指定しない場合は、各物理ファイル名またはディレクトリ名をカンマ(,)で接続します。
スキーマ情報を指定した場合、物理ファイル名またはディレクトリ名に指定した各ファイルの先頭行には項目名が記述されていないものとみなし、データとして集計対象になります。
スキーマ情報を指定しない場合、物理ファイル名またはディレクトリ名に指定した各ファイルの先頭行には項目名が記述されているものとみなし、先頭行のデータを集計対象にしません。
集計条件ファイルのInFileTypeパラメタがXMLで複数のファイルまたはディレクトリを指定する場合には、各物理ファイル名またはディレクトリ名をカンマ(,)で接続します。
複数のファイルまたはディレクトリを指定する場合、カンマ(,)またはセミコロン(;)の前後に改行を記述できます。
本パラメタを複数行に分けて定義する場合や、ファイル名またはディレクトリ名に空白が含まれる場合は、本パラメタに指定する値全体を二重引用符(")で囲う必要があります。

注意

スキーマ情報ファイルには、名前付きパイプを指定できません。ファイル名の先頭に"pipe@"を記述してもファイル名の一部と認識します。
入力の物理ファイルに名前付きパイプを指定する場合には、あらかじめ利用者が名前付きパイプを作成する必要があります。ただし、DataEffectorのコマンド間で名前付きパイプを使用する場合は、作成する必要はありません。
複数の物理ファイルに名前付きパイプを指定して並列に処理を実施する場合には、物理ファイルごとに別々の名前付きパイプを指定し、ParallelNumパラメタを指定してください。
ディレクトリ配下のファイルは、ファイル名でソートされた順番に処理されます。ただし、ParallelNumパラメタ指定時には、順番は保証されません。
集計処理実行中に、指定されたディレクトリに対してファイルの追加、削除を実施した場合は、そのファイルが本機能に反映されない場合があります。
指定されたディレクトリが存在しない場合には、異常終了します。
指定されたディレクトリ配下にファイルが存在しない場合、または、処理すべきファイルが存在しない場合には、異常終了します。（ディレクトリが複数指定されていて、1つのディレクトリ配下にファイルが存在しなくても、他のディレクトリ配下にファイルが存在すれば、異常終了しません。）
指定されたディレクトリ直下のファイルだけが処理対象となります。サブディレクトリ配下のファイルは対象としません。
ディレクトリ配下の内容が以下の場合は、異常終了します。
- 名前付きパイプが存在する
- Data Effectorとして処理対象外のファイルが存在する

参照

処理対象のファイルの種類については、“導入・運用ガイド”の“処理対象ファイルの種類”を参照してください。

SkipHeader

入力ファイルタイプがCSVの場合、入力ジャーナルファイルの見出し行の扱いを指定します。

0: 見出し行を読み飛ばさない。

1: 見出し行を読み飛ばす。

本パラメタを省略した場合、0が指定されたものとみなします。

注意

本パラメタは、入力ファイルタイプがCSVの場合だけ有効です。
本パラメタは、スキーマ情報ファイルが指定されている場合だけ有効です。指定されていない場合、先頭行は読み飛ばしません。
本パラメタは、すべての入力ファイルに対して有効になります。そのため、見出し行のある入力ファイルと、見出し行のない入力ファイルが混在している場合には使用できません。見出し行のない入力ファイルを指定した場合、先頭行を見出し行とみなして読み飛ばします。

OutFile

出力ファイルを指定します。

図1.27 出力ファイルタイプがCSVの場合

図1.28 出力ファイルタイプがXMLの場合

出力ファイル名

出力するファイル名を指定します。
出力ファイル名または物理ファイル名の先頭に"pipe@"を記述することで、名前付きパイプを指定できます。

出力ファイルタイプがCSVの場合で見出し行とデータ行を分けて出力したいときは、スキーマ情報ファイルと物理ファイル名に分けて指定してください。

注意

スキーマ情報ファイルと物理ファイルの扱い

指定の組合せと出力先を以下に示します。

指定例	出力先
指定例	スキーマ情報ファイル	物理ファイル
スキーマ情報ファイル名;物理ファイル名	指定したファイル	指定したファイル
;物理ファイル名	作成されない	指定したファイル
スキーマ情報ファイル名;	指定したファイル	標準出力
;	作成されない	標準出力

見出し行とデータ行に分けて標準出力へ出力することはできません。

スキーマ情報ファイル名と物理ファイル名には、セミコロン(;)を含むことはできません。

注意

名前付きパイプの扱い

スキーマ情報ファイルには、名前付きパイプを指定できません。ファイル名の先頭に"pipe@"を記述してもファイル名の一部と認識します。
出力ファイルに名前付きパイプを指定する場合には、利用者が名前付きパイプを作成する必要ありません。
コマンドの実行結果が出力されるまで名前付きパイプは作成されないため、名前付きパイプが作成されるまでに時間がかかる場合があります。

OSのコマンドを使用して、Data Effectorのコマンドをキャンセルした場合、名前付きパイプのファイルが残る場合があります。この場合は、必要に応じてファイルを削除してください。

WorkFolder

集計処理において一時的に使用するファイルを格納する作業ディレクトリを指定します。

指定した作業ディレクトリ配下に、一時ファイルが作成されます。一時ファイルは、集計処理実行後に削除されます。

WorkFolderパラメタを指定するときは、集計条件ファイルのMemorySizeパラメタと組み合わせて指定することを推奨します。その場合の動作を以下に示します。なお、以下の説明ではMemorySizeパラメタは指定されているとします。

WorkFolderパラメタ	動作
指定あり	集計条件ファイルのMemorySizeパラメタに指定されたメモリを優先して使用する。それ以上が必要になった場合は、WorkFolderパラメタに指定した作業ディレクトリ配下の一時ファイル(注1)を使用する。
指定なし (省略時)	集計条件ファイルのMemorySizeパラメタに指定されたメモリを優先して使用する。それ以上が必要になった場合は、OSで設定されている一時ディレクトリ(注2)配下の一時ファイル(注1)を使用する。

WorkFolderパラメタ

動作

指定あり

集計条件ファイルのMemorySizeパラメタに指定されたメモリを優先して使用する。
それ以上が必要になった場合は、WorkFolderパラメタに指定した作業ディレクトリ配下の一時ファイル(注1)を使用する。

指定なし

(省略時)

集計条件ファイルのMemorySizeパラメタに指定されたメモリを優先して使用する。
それ以上が必要になった場合は、OSで設定されている一時ディレクトリ(注2)配下の一時ファイル(注1)を使用する。

注1)作成される一時ファイルの命名規約は、以下です。

一時ファイル：AsIs.[PID][TID][NO]

[PID]：5桁の数字でプロセスIDを表します。
[TID]：10桁の数字でスレッドIDを表します。
[NO]：3桁の数字です。

注2)OSで設定されている以下の一時ディレクトリを利用します。その配下に、上記一時ファイルを作成します。

OS	設定されている一時ディレクトリ
Windows	環境変数TEMPに設定されているディレクトリ
Linux	/tmpディレクトリ
Solaris	/tmpディレクトリ

注意

WorkFolderパラメタに指定した作業ディレクトリには、入力ファイルの合計サイズ以上の空き容量が必要です。
OSで設定されている一時ディレクトリが存在しない、または設定されていない場合、作業ディレクトリの指定を省略することはできません。
WorkFolderパラメタを指定し、集計条件ファイルのMemorySizeパラメタを指定しない場合、指定した作業ディレクトリ配下に作成される一時ファイルの命名規約が異なります。詳細については“A.2 AsisSetWorkFolderAnalyze”を参照してください。
本コマンドの実行中にキャンセルをした場合、作業ディレクトリ配下に一時ファイルが残ることがあります。この場合は、一時ファイルを削除してください。

ポイント

OSで設定されている一時ディレクトリは、他のプロセスからもアクセスされるため、アクセスが集中すると配下の一時ファイルの読み書きが遅くなる可能性があります。
大量のデータを集計する場合など、一時ファイルを使用する可能性が高い場合は、他のプロセスから同時にアクセスされないディスクにWorkFolderパラメタを使って作業ディレクトリを指定してください。

ParallelNum

InFileパラメタで2つ以上の入力ファイルを指定した場合、複数の入力ファイルから同時に集計を行う並列数を指定します。

ParallelNumパラメタに指定できる値は、1から128までです。
ParallelNumパラメタで指定した並列数が入力ファイル数よりも小さい場合、並列数以上の入力ファイルは、並列数以内の入力ファイルの集計が終わった後に順次、実行されます。
ParallelNumパラメタで指定した並列数が入力ファイル数よりも大きい場合、入力ファイルの数が同時に集計を行う並列数となります。

注意

ParallelNumパラメタに2以上を指定した場合、入力ファイルは複数の物理ディスクに分散して配置することで、読込み処理のディスクI/Oの負荷を分散でき、並列効果を最大限に発揮できます。
そのため、ParallelNumパラメタに指定した並列数と、入力ファイルを配置する物理ディスクの数を同じにすることを推奨します。

QuotationMarkMode

出力ファイルタイプがCSVの場合、出力データの中の文字列値を二重引用符(")で括るかどうかを指定します。

0: 出力データの中の文字列値を、二重引用符(")で括る。

1: 出力データの中の文字列値を、二重引用符(")で括らない。

本パラメタを省略した場合、0が指定されたものとみなします。

注意

本パラメタに“1”を設定した場合、結果データの文字列値にセパレータ文字や改行が存在しても、二重引用符は設定されません。そのため、その後の処理において、想定したデータとして扱われない場合があります。
処理対象のデータに、セパレータ文字や改行が存在する場合には、“0”を指定することを推奨します。以下に例を示します。

本パラメタに“1”を設定した場合、結果データの項目に二重引用符(")が存在しても二重引用符(")によるエスケープは設定されません。
本パラメタに“1”を設定した場合、入力ファイルのデータの項目に二重引用符(")が設定されていたときでも、結果データの項目には、二重引用符(")は付加されなくなります。
入力ファイルの区切り文字が半角空白や水平タブの場合、リターン式を指定すると結果データはカンマ区切りで出力されます。このため、入力ファイルのデータにカンマなどが存在している場合に、本パラメタに“1”を指定すると、結果データが想定したデータとして扱われない場合があります。

FieldSeparator

入力ファイルタイプがCSVの場合、項目間の区切り文字を変更する場合は、新しく区切り文字とする文字を二重引用符(")で囲んで指定します。区切り文字として使用できる文字は、以下のとおりです。

区切り文字	指定方法
カンマ	\,
半角空白	\s
水平タブ	\t

区切り文字として複数指定する場合は、個々の文字列をカンマ(,)で区切って指定します。

注意

本パラメタを指定しても出力時の区切り文字は、常にカンマ(,)になります。

FieldSeparatorMode

入力ファイルタイプがCSVの場合、2つ以上の連続した区切り文字の扱いを指定します。

0:1つの区切り文字を1つの項目間の区切りとして扱う。

1:2つ以上の連続した区切り文字を1つの項目間の区切りとして扱う。

本パラメタを省略した場合、0が指定されたものとみなします。

ErrFile

入力ファイルタイプがCSVの場合、エラーデータ出力ファイルと、エラーデータの最大出力件数を指定します。

本パラメタを指定すると、エラーデータを検索対象外のデータとして扱い、集計処理を継続します。
本パラメタを省略した場合、エラーデータを検出したとき、検出した時点でコマンドが異常終了します。
図1.29 エラーデータ出力の定義

エラーデータ出力ファイル名

入力ファイル中にエラーデータを検出したとき、そのエラーデータの情報を出力します。
指定したファイルがすでに存在している場合は、その情報が上書きされます。
入力ファイル中にエラーデータが存在しなかった場合、エラーデータ出力ファイルは作成されません。

最大出力件数

エラーデータの最大出力件数に指定できる値は、１から2147483647までです。
エラーデータの最大出力件数を指定すると、エラーデータが指定件数分、出力された時点でコマンドが異常終了します。
本パラメタを省略した場合、1000が指定されたものとみなします。

注意

入力ファイル名の工夫

ErrFileパラメタを指定した場合、入力ファイル名に半角英数字以外が含まれるとき、エラーデータ出力ファイルに出力される入力ファイル名が、文字化けすることがあります。そのため、入力ファイル名には半角英数字を使うことを推奨します。

入力定義ファイルに指定するファイル名に半角数字で日付情報を付加する例を以下に示します。

Windowsの場合

InFile    "D:\Shunsaku\indata\売上情報_20080101.csv ,
           D:\Shunsaku\indata\売上情報_20080102.csv ,
           D:\Shunsaku\indata\売上情報_20080103.csv ,
           D:\Shunsaku\indata\売上情報_20080104.csv"

Linux/Solarisの場合

InFile   "/home/Shunsaku/data/売上情報_20080101.csv ,
          /home/Shunsaku/data/売上情報_20080102.csv ,
          /home/Shunsaku/data/売上情報_20080103.csv ,
          /home/Shunsaku/data/売上情報_20080104.csv"

参照

エラーデータ出力ファイルの出力例は、“導入・運用ガイド”の“入力ファイルのエラー処理”を参照してください。

Function

ユーザーが定義した関数（ユーザー定義関数）でデータを処理する場合に指定します。
ユーザー定義関数名、その変換処理を実装したC言語関数名およびライブラリ名を指定します。

本パラメタは、複数個指定できます。最大で256個までです。

本パラメタを省略した場合、ユーザー定義関数を記述しても構文エラーとなります。

図1.30 ユーザー定義関数の定義

ライブラリパス

ユーザー定義関数の変換処理を実装したC言語アプリケーションが格納された、実行モジュールのライブラリのパスを指定します。
パス名にパス区切り文字が含まれている場合、絶対パスまたはカレントディレクトリからの相対パスとみなします。
パス区切り文字が含まれていない場合、OS標準の探索方法に従ってファイルを探します。

ユーザー定義関数名

ユーザー定義関数名は、変換処理が実装されたC言語関数名をData Effectorにおいて識別するための名前です。
ユーザー定義関数名は、1つの処理内で一意である必要があります。
ユーザー定義関数名には、以下の文字から成る1文字以上の文字列を使用してください。ただし、関数名の先頭に、“-”および“.”は指定できません。

表1.6 ユーザー定義関数名に使える文字
!	-	.	0	1	2	3	4	5	6	7	8	9	:
@	A	B	C	D	E	F	G	H	I	J	K	L	M
N	O	P	Q	R	S	T	U	V	W	X	Y	Z	_
`	a	b	c	d	e	f	g	h	I	j	k	l	m
n	o	p	q	r	s	t	u	v	w	x	Y	z

C言語関数名

C言語関数名には、ライブラリパスで指定した実行モジュールからエクスポートされているシンボルを指定します。
C言語関数名は、C言語に規約に従って作成してください。

参照

ユーザー定義関数の利用方法については、“導入・運用ガイド”の“自由に加工する”を参照してください。

!	-	.	0	1	2	3	4	5	6	7	8	9	:
@	A	B	C	D	E	F	G	H	I	J	K	L	M
N	O	P	Q	R	S	T	U	V	W	X	Y	Z	_
`	a	b	c	d	e	f	g	h	I	j	k	l	m
n	o	p	q	r	s	t	u	v	w	x	Y	z

!	-	.	0	1	2	3	4	5	6	7	8	9	:
@	A	B	C	D	E	F	G	H	I	J	K	L	M
N	O	P	Q	R	S	T	U	V	W	X	Y	Z	_
`	a	b	c	d	e	f	g	h	I	j	k	l	m
n	o	p	q	r	s	t	u	v	w	x	Y	z

!	-	.	0	1	2	3	4	5	6	7	8	9	:
@	A	B	C	D	E	F	G	H	I	J	K	L	M
N	O	P	Q	R	S	T	U	V	W	X	Y	Z	_
`	a	b	c	d	e	f	g	h	I	j	k	l	m
n	o	p	q	r	s	t	u	v	w	x	Y	z