終了

OCR 透明テキスト 文字化け

エクスプローラー ,
Jun 27, 2018 Jun 27, 2018

リンクをクリップボードにコピー

コピー完了

OCR機能を使用しているのですが、ネットで調べていると「透明テキスト」という内容が出てきますが、透明テキストって何でしょうか???

また、A4で背景にも色が付いており、カラフルな色使いの紙面をOCR機能を使ってテキストを取り出したいのですが、書体が化けます。

化けにくいスキャン方法はありますか???文字色もいろんな色を使っています。元データの使用書体はMSゴシック、明朝、メイリオのようです。

(スキャンは、自分で行なっておりA4 カラー 24ビット 350dpi 保存形式PDFにしております。PDFはアクロバットDCです。)

表示

2.4K

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
アドビスタッフ ,
Jul 02, 2018 Jul 02, 2018

リンクをクリップボードにコピー

コピー完了

最新

ジャパンフォーラムのご利用ありがとうございます。

所謂「透明テキスト」というのは、OCRでのテキスト認識のことのようですね。

紙媒体をスキャンして PDF ファイル化したデータは、まずは画像として読み込まれます。

文字のように見えていても実質は画像ですので、テキストの編集や検索が行えません。

この状況を回避するため、テキストの形をした画像をテキストデータとして読み込んで認識する機能が OCR 機能となります。

表面上のテキスト画像の上に、OCRで認識したテキストが見えないデータとして乗っているような形のため、「透明テキスト」と通称されているようです。

詳しくは、以下の文書をご参照ください。

スキャナ取込みの際に文字をテキストとして認識させる方法 (Acrobat XI/DC)

スキャンした PDF の編集、自動 OCR の無効化(Adobe Acrobat)

紙の文書を検索可能なPDFに変換 |

認識精度ですが、文字がかすれていたり、白紙に黄色の文字などコントラストが低い場合はやはり認識しづらくなります。

テキスト認識精度を上げるには、白黒でスキャンしたりコントラストを強調した方が良いと思われます。

なお、内容により Acrobat Reader コミュニティから Acrobat コミュニティへ移動いたしました。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines