抽出キーワード内に演算子を記述することにより、部分的な一致の抽出や単語の抽出など、複雑な条件を記述できます。この形式のことをパターンと呼びます。
複雑な条件を記述することにより、より詳細な抽出条件を指定できます。
パターンによる抽出では、パス式、項目式または属性式と、抽出キーワードを比較演算子(=、!=)で指定します。
検索対象外の文字列を設定したい場合は、以下で設定できます。
setSkipCharメソッド(検索対象外文字列)
抽出プロパティファイルのskipCharacterパラメタ
["][文字列]["]
または
['][文字列][']
演算子を使用した抽出方法のパターンは以下のものがあります。
要素の値に、指定されたすべての文字列を含むかどうかを調べます。
["][文字列1][&][文字列2]…[&][文字列n]["]
または
['][文字列1][&][文字列2]…[&][文字列n][']
例
/root/textが示す要素の値が「富士通」および「営業」という文字列を両方含む場合に真となります。
/root/text = "富士通&営業"
要素の値に、指定されたいずれかの文字列を含むかどうかを調べます。
["][文字列1][|][文字列2]…[|][文字列n]["]
または
['][文字列1][|][文字列2]…[|][文字列n][']
例
/root/textが示す要素の値が「人事部」または「経理部」という文字列のどちらかを含む場合に真となります。
/root/text = "人事部|経理部"
要素の値に、指定された文字列を含まないかどうかを調べます。
["][~(文字列)]["]
または
['][~(文字列)][']
例
/root/textが示す要素の値に「富士通」という文字列を含まない場合に真となります。
/root/text = "~(富士通)"
ポイント
論理積、論理和、否定のパターンは組み合わせての記述が可能です。
このときの評価順序は以下のとおりです。
1) 否定
2) 論理積
3) 論理和
ただし、括弧(「(」および「)」)を使用して評価順序を指定できます。
この場合、括弧の中の条件は、優先的に評価されます。
例
/root/textが示す要素の値に「総務部」または「業務部」という文字列を含み、かつ、「経理」という文字列を含まない場合に真となります。
/root/text = "~(経理)&(総務部|業務部)"
ワード一致指定は、英文のデータを対象として抽出します。
要素の値に、指定された文字列(検索ワード)と一致する単語が含まれるかどうかを調べます。ワード検索の場合は、空白などの区切り文字で区切られた文字列を、単語として識別します。
["][\<][検索ワード1][\>][\<][検索ワード2][\>]…[\<][検索ワードn][\>]["]
または
['][\<][検索ワード1][\>][\<][検索ワード2][\>]…[\<][検索ワードn][\>][']
検索ワードに記述できる文字は、単語の区切り文字を除くASCII文字です。
単語の区切り文字は、以下で設定できます。
setSeparateCharメソッド
抽出プロパティファイルのseparateCharacterパラメタ
例
/root/textが示す要素の値に「the」という単語を含む場合に真となります。例えば、「mother」の「the」は単語の途中にあるため偽となります。
/root/text = "¥<the¥>"
ポイント
検索ワードを連続して記述することで、連続した単語(フレーズ)を含む文書またはレコードを抽出できます。
例
/root/textが示す要素の値に「IT Department of Company A」というフレーズを含む文書を抽出します。
/root/text = "¥<IT¥>¥<Department¥>¥<of¥>¥<Company¥>¥<A¥>"
ワード間隔指定は、英文のデータを対象として抽出します。
要素の値に、指定された2つのキーワードが指定された単語数以内の間隔をおいて連続して出現するかどうかを調べます。
ワード間隔指定の数値に指定できる値は、0~1024です。
["][\<][検索ワード1][\>][,ワード間隔W,][\<][検索ワード2][\>]["]
または
['][\<][検索ワード1][\>][,ワード間隔W,][\<][検索ワード2][\>][']
検索ワードに記述できる文字は、単語の区切り文字を除くASCII文字です。
単語の区切り文字は、以下で設定できます。
setSeparateCharメソッド
抽出プロパティファイルのseparateCharacterパラメタ
半角数字で指定します。
例
/root/textが示す要素の値に「check number」と「fujitsu limited」という単語を含み、かつ、その2つの単語の間の単語数が100ワード以内である場合に真となります。
/root/text = "\<check number\>,100W,\<fujitsu limited\>"
注意
ワード検索ではワード間隔指定を、一度だけ指定できます。
要素の値に、指定されたキーワードが含まれるかどうかを調べます。
["][文字列]["]
または
['][文字列][']
例
/root/text が示す要素の値に「富士通」という文字列を含む場合に真となります。
/root/text = "富士通"
要素の値の先頭に、指定された文字列が存在するかどうかを調べます。
["][^][文字列]["]
または
['][^][文字列][']
例
/root/textが示す要素の値の先頭が「富士通」という文字列で始まる場合に真となります。
/root/text = "^富士通"
要素の値の末尾に、指定された文字列が存在するかどうかを調べます。
["][文字列][$]["]
または
['][文字列][$][']
例
/root/textが示す要素の値の末尾が「富士通」という文字列である場合に真となります。
/root/text = "富士通$"
要素の値に、任意の文字が入った文字列を含んでいるかどうかを調べます。
文字列に含む任意の文字は、以下の表に示す4種類を指定できます。記号は半角で指定します。
要素の値に、指定された2つのキーワードが、指定された文字数以内の間隔をおいて連続して出現するかどうかを調べます。
文字間隔を数値で指定します。
["][文字列1][,文字間隔C,][文字列2]["]
または
['][文字列1][,文字間隔C,][文字列2][']
文字間隔
半角数字で指定します。
文字間隔指定の数値に指定できる値は、0~1024です。
例
/root/textが示す要素の値に「アルコール」と「濃度」という文字列を含み、かつ、その2つの文字列の間の文字数が10文字以内である場合に真となります。
/root/text = "アルコール,10C,濃度"
注意
・文字列抽出に文字間隔指定は、一度だけ指定できます。
・文字間隔指定の直前または直後に、任意文字指定を記述することはできません。
要素の値に、指定された文字が含まれるかどうかを調べます。キーワードの一部は、複数の文字列のいずれかで構成されます。
["][文字列1][(][文字1][|][文字2]…[|][文字n][)][文字列2]["]
または
['][文字列1][(][文字1][|][文字2]…[|][文字n][)][文字列2][']
例
/root/textが示す要素の値に「高田太郎」、「高山太郎」または「高見沢太郎」という文字列を含む場合に真となります。
/root/text = "高(田|山|見沢)太郎"
注意
部分文字指定、文字範囲指定および数値範囲指定の抽出を実行する場合には、抽出サーバセットで多くのメモリを使用することがあります。運用するコンピュータに十分なメモリが用意されていない場合には、抽出レスポンスに影響が発生し、場合によってはアプリケーションがメモリオーバーフローエラーを検出することがあります。
部分文字指定、文字範囲指定または数値範囲指定の抽出を実行する場合に、使用する最大のメモリサイズは以下の計算式で算出できます。
部分文字の数、文字の範囲または数値の範囲×キーワードの文字数×1キロバイト
部分文字指定、文字範囲指定または数値範囲指定が複数指定されている場合には、各部分文字の数、各文字の範囲または各数値の範囲を乗算した値が、範囲となります。
部分文字指定、文字範囲指定および数値範囲指定を組み合わせて抽出を実行する場合には、使用する最大のメモリサイズは以下の計算式で算出できます。
部分文字の数×文字の範囲×数値の範囲×キーワードの文字数×1キロバイト
要素の値が、指定された文字の範囲に含まれるかどうかを調べます。キーワードの一部は、指定された範囲の文字のいずれかで構成されます。
文字1の文字コードの値は、文字2の文字コードの値より小さくなければなりません。文字1と文字2はともにASCII文字の1文字でなければなりません。
["][文字列1][[文字1-文字2]][文字列2]["]
または
['][文字列1][[文字1-文字2]][文字列2][']
例
/root/textが示す要素の値に「classA」,「classB」または「classC」という文字列を含む場合に真となります。
/root/text = "class[A-C]"
注意
文字範囲指定の抽出を実行する場合に、多くのメモリを使用することがあります。
要素の値が、指定された数値の範囲に含まれるかどうかを調べます。
["][文字列1][[数値1,数値2]][文字列2]["]
または
['][文字列1][[数値1,数値2]][文字列2][']
例
/root/textが示す要素の値に「アルコール9%」,「アルコール10%」または「アルコール11%」という文字列を含む場合に真となります。
/root/text = "アルコール[9,11]%"
注意
数値1は数値2より小さい数値を指定します。数値1と数値2はともに半角数字を指定します。なお、数値1と数値2に指定できる値は、0~999です。
数値範囲指定の抽出を行う場合は、数値の前後に文字を指定してください。
数値範囲指定の抽出を実行する場合に、多くのメモリを使用することがあります。