Skip to main content
masayan24
Inspiring
July 1, 2017
解決済み

OCR 検索可能にならない。

  • July 1, 2017
  • 返信数 2.
  • 10724 ビュー

Adobe Acrobat Pro DC 2015.008.20082 を macOS Sierra 10.12.5 にて英語環境で使っています。

このバージョンの Acrobat Pro では、OCR に 3 つのオプションがあります。

1. Searchable Image (日本語: 検索可能な画像)

2. Searchable Image (Exact) (日本語: 検索可能な画像 (非圧縮))

3. Editable Text and Images (日本語: ClearScan) (ちなみに英語では ClearScan という言葉は消滅した模様)

3 の Editable Text and Images では OCR 機能が働いて、処理後に日本語検索が可能なことは確かめました。

しかしながら、1, 2 に関しては処理後、日本語検索ができません。このとき、画像テキストは選択し、コピー&ペーストできるのですが、ペースト時に文字化けしています。

Acrobat そのものでの検索も不可能ですし、Mac の Preview.app でも不可能です。

・対策 (試すこと)

・レポートする場所の指摘

等ありましたら、お願いします。

このトピックへの返信は締め切られました。
解決に役立った回答 assause

assause さま

連投ですみません。

最初の assause さんの投稿で、「PDF を編集」メニューから、OCR を設定しているように見受けられます。

しかし、こちらで試したところ、PDF を編集しようとした場合に、ClearScan モードでの OCR が自動的に行われるようです。

一方で、こちらで行なっているのは、(Windows のメニューが分からずすみませんが、Mac では)

「スキャン補正」→「テキスト認識」→「このファイル内」→(メニューバーみたいなのが現れる)「設定」→(テキスト認識というダイアログが出る)「設定」→「文書の言語→日本語」、「出力→検索可能な画像 (非圧縮)」→「テキスト認識」(ボタン)

という流れです (多分 Windows でも同様のメニューがあるはずです)。

設定で、検索可能な画像 (非圧縮) (または圧縮) を選ぶと、日本語がうまく OCR 処理されません。

p.s.

一度お名前を間違えていました、すみません。


スキャン補正の設定でしたか。気づきませんでした。

確かにこちらでは、いずれの場合でも「PDFを編集」でOCR処理をかけていました。

そしてWindows/Macとも、あらためてスキャン補正からテキスト認識を行ってみました。

設定としては「検索可能な画像」(600dpi)と「検索可能な画像(非圧縮)」の両方をそれぞれなので、

環境差も含めて都合4回の変換をかけてみました。

ただ結果としては、やはり正常に処理されたことが確認できいました。

いずれも日本語UI+認識設定は日本語言語設定にて行っています。

返信数 2

masayan24
masayan24作成者
Inspiring
July 4, 2017

追加情報。

ソフトウェアを一旦アンインストールして、次のバージョンを再インストールしました。

version 2017.09.20044

英語環境・日本語環境共に確認しましたが、上記の現象は改善されず、依然

1. Searchable Image (日本語: 検索可能な画像)

2. Searchable Image (Exact) (日本語: 検索可能な画像 (非圧縮))

での OCR はうまくいきません。ちなみに半角英数字はうまく判別できているようです。

Inspiring
February 23, 2020

今更なんですが、同じような問題が生じましたので投稿してみます。私はAcrobat Pro XI使っていますが、やはり「Searchable Image」か「Searchable Image (Exact)」によってOCRすると、出来上がったPDFはPreviewからのコピー・アンド・ペーストができないのです。Acrobatの言語を日本語にしても、なにも変わらないです。

 

おそらく、私とmasayan24さん以外誰も気づかないだろうと思いますが、なにか改善する方法あれば非常に嬉しいです。

assause
Community Expert
Community Expert
February 23, 2020

Acrobat XI自体はすでにセキュリティサポートすら終了していますから、それがもし不具合としても更新されることはありません。

またPreviewがmacOSのそれだとした場合、Adobe自体が他の互換ビューワーの考慮をする必要がないわけですから、改善点にもならない可能性が高いところです。

assause
Community Expert
Community Expert
July 1, 2017

Acrobat DCのOCR処理は、基本的には設定言語に依存していたのではないかと思います。

他にある設定としては「PDFを編集」の中にある、「スキャンした文書」-「設定」を開き、

「次の言語でテキストを認識」で設定しなければならないはずです。

英語環境で使っている理由がわかりかねますが、

まずは該当設定やOSを含む言語設定を変更してみるところからではないでしょうか。

masayan24
masayan24作成者
Inspiring
July 1, 2017

提案をありがとうございます。

英語環境で使っているのは、mac 自体を英語環境で使っているためです。

Acrobat DC の OCR 処理では、英語環境でも、日本語にて OCR 処理を選択することが可能です (Japanese が選択できます)。

設定から確認したところ、Japanese が選択されていました。

OS の言語設定の変更で再現するかどうかはまだ試していませんが、やってみようと思います。。。

Japanese が選択されていることを示すスクリーンショット、および

検索しても全く引っかからないことを示すスクリーンショットを添付しています。

assause
Community Expert
Community Expert
July 3, 2017

引き続きありがとうございます。

最初のポストの書き方がわかりにくかったかもしれませんが、

コピー&ペーストを試すと、正しくコピーされていないことが確認できます (ペーストしたものが文字化けしている状態)。

任意の日本語が文字化けします → OCR がうまくいっていないと思います。

また、先のご指摘にあった、日本語環境にて確認してみたところ、英語環境で行った結果を再現しましたので、OS の言語に依存しているのではなく、Adobe Acrobat Pro DC 自体に問題があるように思います。

他の方の環境では本当にうまくいっているのでしょうか。

情報ありましたらお願い致します。


OCR処理の失敗はあらゆるデータで起きているのでしょうか。

それとも特定のデータだけでしょうか。

記載した通りベストエフォート型なので、認識の状態によっては正常に読み取れないケースはありえます。

ただ、過去および現在も含めて試す限りはそこまでの状態ではないとは思っています。

こちらで使っているのがWindowsのContinious版なので、現在のバージョンは2017.009.20044ですが、

貼り付けられたスクリーンショットをローカルに保存後、Acrobatで直接開き、

編集機能でOCR認識させたところ、下記の結果が得られました。

(一部おかしいところはありますし、最上部は文字欠けしているので完全に化けていますが)

また過去に2015時点でもOCR処理は行ったこともありますが、データにもよりますが日本語としての認識はしていました。

お持ちのものはおそらくClassic版だと思うので認識精度が同一かどうかの断言はできないところですが、

バージョンによってそこまでの差異が出ることは少々思いにくいところです。

一度再インストールしての確認なども行ってみてはどうでしょうか。