Acrobat ProでOCR処理をかけた文書をコピペすると文字化けする

レポート · Aug 17, 2020

Acrobat Proでテキスト認識→検索可能なPDFに変換をしたのですが、実際にOCR処理をかけた文書の中の文章の一部をコピペしたところ、文字化けが起こってしまいました。このような症状の対処法はありませんか。是非教えていただければ幸いです。

レポート · Aug 17, 2020

OCR自体が完全な処理にならないものなので、ある程度は仕方ないところです。

元ファイルの画質にも影響することもありますが、日本語は100%の処理は望めず、これ自体はAcrobatに限らず、どのOCRソフトでも同様です。

あくまでも補助的に利用するものとして考えたほうがいいでしょう。

レポート · Aug 17, 2020

返信していただきありがとうございます。OCRの精度が完璧でないことは重々承知しております。しかし、数字以外のほぼ全ての文字において文字化けが発生してしまっている状態なのです。分かりにくい書き方をしてしまいすいません。数字以外が文字化けするということはよくあることなのでしょうか。

レポート · Aug 18, 2020

数字はOCR処理としては通りやすいほうではないでしょうか。

どちらかというと他の文字のほうが難しいと思います。

たとえば、ひらがなの「に」は「l」「こ」で分かれるなどは可能性としてありえるところです。

このあたりは先述の通り、元の画質の影響はでますし、スキャン時の解像度に影響します。

低解像度かつ圧縮率の高いJPEG（ブロックノイズ多めなど）だと精度はかなり落ちると思います。

人の目でそれなりに読めても、OCRでは駄目、ということも、低画質のデータであれば発生する可能性は高いところです。

レポート · Aug 28, 2020

返信していただきありがとうございます。そして、返信が遅れてしまい大変申し訳ございません。解像度なのですが、かなり高い解像度でスキャンしています。他の方が推奨されているスキャン設定を試してみたりしているのですが、やはりうまくいきません。一応「もじばけらった」と呼ばれるサイトで文字化けしたものをペーストしていじってみたところ、かなり高い精度で文字化けが治ります。これも解像度の問題なのでしょうか。何度も質問してしまい申し訳ございません。

レポート · Aug 28, 2020

件のサイトは認識されなかった各種エンコーディングを施されたものを正しいエンコーディングで再度文字列を処理し正しく表示させるといった事を行います。これはOCRによる誤認識を正すのとは異なる処理です。
現象を明確にするためにもサンプル画像とOCR結果の見本を提示できませんか？

以下に典型的な誤認識の例を挙げておきます。

「件のサイトは認森されなかった各碩エンコーディングを庇されたものを正しいエンコーディングで再度字列を処理し正しく表させるといった沼をいます。これはOCRによる誤認蕊を正すのとは異なる処理です。
現象を明！岳にするためにもサンブル画倣とOCRl'1i果の本を捉できませんか？」

レポート · Aug 29, 2020

返信していただきありがとうございます。「OCR結果の見本」とは「サンプル画像」をOCR処理した画像という認識で間違っていませんか？

レポート · Aug 29, 2020

上の画像に対してOCR処理したものが下の画像です。

この様に文字コードがどうこうと言うより近い形状の文字を拾うので人が読んで訂正しないとダメです。コード変換サービスなどを利用して処理できるものではありません。

この様にどの様な画像を処理してどの様な結果が出ているのかを確認しないとどの様な問題が生じているのかがわかりません。

レポート · Sep 06, 2020

返信ありがとうございます。サンプル画像を作る際にAcrobatを使ったのですが、何故か正常に使えました。何度も返信いただいたのに本当にすいません。おそらく再起動等を自分が意図せずにしたのが要因で治ったのだとは思いますが、、とにかく返信していただきありがとうございました。

Adobe Community

Acrobat ProでOCR処理をかけた文書をコピペすると文字化けする