XML文書が1つ以上格納されているファイルを入力データファイルとして扱います。
1ファイル内に複数のXML文書を連続して格納しておくことにより、1回の操作で複数のXML文書を取り扱えます。Interstage Information Storageで扱うXML文書は、整形式のXML文書(well-formed XML document)です。1つのXML文書を1レコードと呼びます。
整形式のXML文書とは、XML文書の仕様に準拠するための以下の基準を満たした文書のことです。また、XML宣言やDTDなどの前書きがない、本文だけのXML文書も格納できます。
整形式の条件について記述します。
1つ以上の要素を含んでいる。
ルートと呼ばれる要素が1つ存在する。
ルートと呼ばれる要素以外の要素の開始タグが、他の要素の内容の中に存在する場合には、終了タグも同じ要素の内容の中に存在する。
ポイント
開始タグと終了タグの間に要素の内容があります。要素の内容が空である場合、空要素タグ(例:<Company/>)のように記述できます。
“<”で始まる文字をルート要素の開始タグ(ルートタグ名)とみなし、対応する終了タグまでをXML文書とします。
XML文書内では要素内容である項目前後で改行、連続の半角空白、水平タブをCPMキーの内容として認識しません。データはそのままの形式で格納し、抽出結果もそのままの形式で抽出されます。
例 CPMキーの値が"April"として認識される
<A>□□April[Rtn]
□□</A>
備考. 「□」は半角空白または水平タブ、「[Rtn]」は改行を示します。
図2.2に、XML形式の例を示します。
注意
以下の部分は、抽出条件に指定できません。
XML宣言やDTDなどの前書きの部分
名前空間の値
コメント
処理命令
XML文書の内部実体展開、および、外部実体の展開は行いません。
XML文書の要素や属性の名前空間を認識しません。要素名や属性名が名前空間接頭辞で修飾された名前の場合、名前空間接頭辞とコロン(:)を含めたものを要素名、または属性名として扱います。
DTD宣言で指定した属性のデフォルト値での抽出はできません。
属性値の正規化(連続する半角空白、復帰文字、改行文字、水平タブを半角空白で置き換えること)は行いません。属性値はXML文書に記述されたままの状態で扱います。
XML形式のデータの場合、CPMキーとして属性を指定することはできません。またCPMキーに指定した要素が属性を含んでいた場合、属性は無視されます。ファイル選択の条件には使用されません。
開始タグ名と終了タグ名が異なるXMLデータは扱えません。
1つの要素内に同じ属性名を重複して記述できます。抽出の際は、1つの要素内に同じ属性名が複数記述されている場合、どちらかの属性値に条件に一致する文字列または数値が含まれれば真となります。
XML文書の妥当性検証は実施しません。
XML形式の1XML文書の最大サイズは32メガバイトです。
XML形式の入力ファイルでは、ルート要素に“!”で始まる名前を使用できません。