TOP » 運用例 » 表内のテキストの認識精度を改善

表内のテキストの認識精度を改善

本ページでは、ABBYY FineReader PDF で認識した、表内のテキストの認識精度を向上させる方法をご案内します。
セル内のテキストが文字化けしている場合などにご活用いただけます。
以下では、A3 セルと J3 セルの文字化けを改善させます。
改善前の表の認識結果 (Excel)

【操作手順】

  1. ABBYY FineReader PDF の OCR エディタで、対象となる表が含まれる画像 または PDF を開きます。
  2. 自動で認識を無効化されている場合、認識領域を手動で指定します。
    または認識ボタンをクリックして、文書全体を認識させます。
  3. 表として認識された領域をクリックして、表示されたツールバー (フローティングバー) の、表の構造解析ボタンをクリックします。
  4. OCRエディタ右側の認識結果を確認し、罫線の追加と削除、セルの結合と分割 を参考に、罫線やセルを編集して表の状態を整えます。
    本ページでは、3行目と4行目の間に挿入されている罫線を削除しました。
  5. 任意のファイル形式で保存します。
    下図は Excel (XLSX) 形式での出力結果です。「受入金額」や「残高」の認識結果が、操作前(上図) から改善されています。
    改善後の表の認識結果 (Excel)