Skip to main content
oshi035036
Known Participant
June 28, 2018
Question

OCR 透明テキスト 文字化け

  • June 28, 2018
  • 1 reply
  • 2730 views

OCR機能を使用しているのですが、ネットで調べていると「透明テキスト」という内容が出てきますが、透明テキストって何でしょうか???

また、A4で背景にも色が付いており、カラフルな色使いの紙面をOCR機能を使ってテキストを取り出したいのですが、書体が化けます。

化けにくいスキャン方法はありますか???文字色もいろんな色を使っています。元データの使用書体はMSゴシック、明朝、メイリオのようです。

(スキャンは、自分で行なっておりA4 カラー 24ビット 350dpi 保存形式PDFにしております。PDFはアクロバットDCです。)

    This topic has been closed for replies.

    1 reply

    Cherishψ
    Community Manager
    Community Manager
    July 3, 2018

    ジャパンフォーラムのご利用ありがとうございます。

    所謂「透明テキスト」というのは、OCRでのテキスト認識のことのようですね。

    紙媒体をスキャンして PDF ファイル化したデータは、まずは画像として読み込まれます。

    文字のように見えていても実質は画像ですので、テキストの編集や検索が行えません。

    この状況を回避するため、テキストの形をした画像をテキストデータとして読み込んで認識する機能が OCR 機能となります。

    表面上のテキスト画像の上に、OCRで認識したテキストが見えないデータとして乗っているような形のため、「透明テキスト」と通称されているようです。

    詳しくは、以下の文書をご参照ください。

    スキャナ取込みの際に文字をテキストとして認識させる方法 (Acrobat XI/DC)

    スキャンした PDF の編集、自動 OCR の無効化(Adobe Acrobat)

    紙の文書を検索可能なPDFに変換 |

    認識精度ですが、文字がかすれていたり、白紙に黄色の文字などコントラストが低い場合はやはり認識しづらくなります。

    テキスト認識精度を上げるには、白黒でスキャンしたりコントラストを強調した方が良いと思われます。

    なお、内容により Acrobat Reader コミュニティから Acrobat コミュニティへ移動いたしました。