ページの先頭行へ戻る
Big Data Integration ServerV1.4.0 検索編アプリケーション開発ガイド
FUJITSU Software

E.3 テキストファイルのXML文書

テキストファイルからShunsakuにXML文書を直接取り込む場合は、1ファイルに複数のXML文書を連続して格納しておくことにより、1回の操作で複数のXML文書を取り込むことが可能です。
Shunsakuは、1ファイルに格納された複数のXML文書を、1文書ごとに区切って格納します。

注意

  • ルート要素の終了タグのあとにある次のXML文書のXML宣言や“<!—”で記述されるコメントなどは、次のXML文書として扱われます。

  • ルート要素の終了タグから次のXML文書のルート要素の開始タグまでの間に記述された以下の文字は無視されます。

    • 改行

    • 空白行

    • XML宣言およびコメント以外の文字

例1

ルート要素の開始タグの前および終了タグの後にコメントが含まれている複数のXML文書を1ファイルにしてShunsakuに取り込んだ場合


文書A

<!-- Starting A -->
<A>
    <B>aaam</B>
</A>
<!-- End A -->

文書B

<!-- Starting B -->
<A>
    <C>bbbm</C>
</A>
<!-- End B -->

上記の2つの文書を1ファイルに格納して取込み操作を行った場合、文書Aの終了はルート要素の終了タグ</A>が出現した時点と判断されます。
そのため、文書B全体を取り出す場合、文書Aの<!--End A-->を含んで返信されます。


文書A全体の取出し

<!-- Starting A -->
<A>
    <B>aaam</B>
</A>

文書B全体の取出し

<!-- End A -->
<!-- Starting B -->
<A>
    <C>bbbm</C>
</A>

例2

ルート要素の開始タグの前および終了タグの後に文字列が含まれている複数のXML文書を1ファイルにしてShunsakuに取り込んだ場合


文書A

Document A Start
<A>
    <B>aaam</B>
</A>
Document A End

文書B

Document B Start
<A>
    <C>bbbm</C>
</A>
Document B End

上記の2つの文書を1ファイルに格納して取込み操作を行った場合、文書Aおよび文書Bは、<A>から</A>までと判断され、それ以外の文字は無視されます。
そのため、文書A、文書Bを取り出す場合、Shunsakuは、<A>から</A>までを文書として返信します。


文書A全体の取出し

<A>
    <B>aaam</B>
</A>

文書B全体の取出し

<A>
    <C>bbbm</C>
</A>