Shunsakuに格納するXML文書は、整形式のXML文書(well-formed XML document)です。
整形式のXML文書とは、XML文書の仕様に準拠するための以下の基準を満たした文書のことです。また、XML宣言やDTDなどの前書きがない、本文だけのXML文書も格納することができます。
ルート要素が1つだけ存在する
開始タグがあれば、必ず終了タグが存在する
タグの入れ子が正しく記述されている
Shunsakuでは、“<”で始まる文字をルート要素の開始タグとみなし、対応する終了タグまでをXML文書とします。XML文書内では空白、タグおよび改行などを含めたそのままの形式で扱います。
図E.1 XML文書の書式
上記の例では、“<!—”のコメントから、ルート要素の終了タグである“</doc>”までをXML文書とします。終了タグのあとのコメントはXML文書には含まれません。また、終了タグのあとに改行がついている場合、改行もXML文書には含まれません。