文字認識時の留意事項について説明します。
認識対象文字種は以下に示す3442字あります。
基本認識対象文字種3313字
縦専用文字種31字
半角文字種98字
次に認識文字種を文字種ごとに示します。
基本認識対象文字種3313字
0123456789
ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyz
ぁあぃいぅうぇえぉおかがきぎくぐけげこごさざしじすずせぜそぞ
ただちぢっつづてでとどなにぬねのはばぱひびぴふぶぷへべぺほぼぽ
まみむめもゃやゅゆょよらりるれろゎわゐゑをん
ァアィイゥウェエォオカガキギクグケゲコゴサザシジスズセゼソゾ
タダチヂッツヅテデトドナニヌネノハバパヒビピフブプヘベペホボポ
マミムメモャヤュユョヨラリルレロヮワヰヱヲンヴヵヶ
縦専用文字種31字
、 。 , . ー ‐ ~ |… ‘’ “” ()〔〕[]{}〈〉《》「」『』【】
半角文字種98字
! " # $ % & ' () * + , - . / : ; < = > ? @ [ \ ] _ {|} ̄°¢£§• ×
0123456789
ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyz
5~40ポイント(27.8 ~ 222.2ドット)の範囲の文字サイズは認識されます。
推奨は10.5ポイントです。
次に示す条件の文字書体は認識されます。
明朝体、またはゴシック体
ただし、ゴシック体は明朝体で認識されます。
イタリック体は認識されません。
全角または半角
横倍角文字、および縦倍角文字は認識されません。
また、半角数字は、全角数字を横に50%縮小された文字として認識されます。
同一行内の文字の高さが同一
同一の行内では文字の高さは統一されている必要があり、上下添字や複雑な数式は認識できません。
次に示す条件の文字書体は正しく認識されない場合があります。
句読点や上下に分離しやすい文字
次に示す文字などのように、上と下(「冠」と「脚」)の方向に水平線で分離できる文字は正しく認識されない場合があります。
異、員、恩、急、京、罫、熟、誓、青、前、怠、罰、品、富、量
次に示すような文字は認識されません。
白抜きになっている(文字と背景が白黒反転している)。
中抜きになっている(文字が白く、文字輪郭が黒い)。
文字に影が付いている。
文字や背景に網がけ以外の模様が付いている。
ただし、網がけの点が大きい場合、文字として認識される場合があります。
下線は認識されません。
抹消線は認識されません。
文字間隔が大きい文字は認識されない場合があります。
文字間隔が不均一な文字は認識されない場合があります。
行が接触している文字は認識されない場合があります。
分数式は認識されない場合があります。
数字が2桁になり括弧との間隔が狭く接触すると認識されません。
丸付き数字1~20までは認識されます。
つぶれている文字、接触している文字は認識されません。
回転している文字は認識されません。
枠の上下または左右を結ぶ罫線がない表の文字は認識されない場合があります。
電子文書にイメージとして存在する文字は認識されません。
電子文書に使用されている文字のフォントが、インストールされていない場合などは認識されない場合があります。
文字罫線を罫線として認識した場合、認識された文字罫線が文字としても復元される場合があります。
文字を罫線として認識した場合、認識された文字およびその枠の文字は認識されない場合があります。
「文字情報を利用してOCR認識を行う」をチェックして出力したオーバレイをList Creatorデザイナのオーバレイ追加した場合、「扱えない文字方向/文字列方向の組み合わせが存在します。扱える組み合わせに変更して読み込みます。縦書き文字列については、縦書きフォントを指定することで代替できます。」というメッセージが表示される場合があります。このメッセージが表示された場合は、縦書き文字列のフォントを縦書きフォントに変更してください。
文字列が複数行または複数列ある電子文書を認識した場合、電子文書上では縦方向の文字列が横方向の文字列として認識されたり、電子文書上では横方向の文字列が縦方向の文字列として認識されたりすることがあります。
オーバレイユーティリティのプリンタへの出力時に、出力された文字が欠けるような場合は、正しく認識されない場合があります。オーバレイユーティリティのプリンタには、認識範囲内の文字がすべて出力されるよう印刷範囲を指定してください。
なお、認識範囲がすべて出力されているかは、ご使用のアプリケーションのプレビュー機能などで確認することができます。