TOP » FAQ » OCR » 検索可能なPDFとは

検索可能なPDFとは

PDFファイルは「検索可能なPDF」「画像PDF」「一般的なPDF」の3種類に分類されます。ABBYY FineReader では、3種類すべてのタイプへの変換に対応しています。

本ページでは、各タイプの特性についてご案内します。

検索可能なPDF

検索可能なPDFファイルは、一般的にはページ画像と、その下にある目に見えないテキストレイヤーから構成されます。文字検索は、テキストレイヤー内の文字を参照しています。

一般的には、ドキュメントをスキャンした後、認識処理(OCR)を実行し、認識結果をテキストレイヤーとして保存することで、検索可能なPDFとして作成されます。
目に見えないテキストレイヤーは、透明テキストとも呼ばれています。
テキストレイヤーに含まれるテキストは、PDFアプリケーションで開いて、文字をコピーできます。

検索可能PDF

ABBYY FineReader では、文字検索に対応していないPDFファイルを、検索可能なPDFファイルに変換できます。

PDFファイルを分析して、使用可能なテキストレイヤーがあるかどうかを確認し、読み取ったPDFファイルに品質の良いテキストレイヤーが存在する場合、既存のテキストレイヤーを再利用できます。
設定を変更することで、品質の高い新しいテキストレイヤーを作成することも、元のテキストレイヤーのみを使用することも可能です。

また、ABBYY FineReader では検索可能なPDFファイルのテキストの編集にも対応しています。

画像PDF

印刷画面などから PDF形式に出力するアプリケーションで、このタイプの PDFファイルが作成されます。
画像PDFは、ページを画像として使用することで、まったく同じ外観の PDFファイルを作成できます。
テキストレイヤーが含まれていないため、文字検索には対応していません。
文字情報のコピー&ペーストを禁止したいドキュメントなどに適しています。

一般的なPDF

PDF作成アプリケーションで作成される一般的なPDFファイルです。
このタイプのドキュメントにはテキストと写真が含まれますが、ページ画像は含まれません。
Word や PowerPoint のような、編集可能なドキュメントと同じように配置されます。

元のドキュメントとは違う外観になる可能性がありますが、編集に適したPDFファイルとして出力されます。

一般的なPDF