Skip to main content
masayan24
Inspiring
July 1, 2017
Answered

OCR 検索可能にならない。

  • July 1, 2017
  • 2 replies
  • 10698 views

Adobe Acrobat Pro DC 2015.008.20082 を macOS Sierra 10.12.5 にて英語環境で使っています。

このバージョンの Acrobat Pro では、OCR に 3 つのオプションがあります。

1. Searchable Image (日本語: 検索可能な画像)

2. Searchable Image (Exact) (日本語: 検索可能な画像 (非圧縮))

3. Editable Text and Images (日本語: ClearScan) (ちなみに英語では ClearScan という言葉は消滅した模様)

3 の Editable Text and Images では OCR 機能が働いて、処理後に日本語検索が可能なことは確かめました。

しかしながら、1, 2 に関しては処理後、日本語検索ができません。このとき、画像テキストは選択し、コピー&ペーストできるのですが、ペースト時に文字化けしています。

Acrobat そのものでの検索も不可能ですし、Mac の Preview.app でも不可能です。

・対策 (試すこと)

・レポートする場所の指摘

等ありましたら、お願いします。

This topic has been closed for replies.
Correct answer assause

assause さま

連投ですみません。

最初の assause さんの投稿で、「PDF を編集」メニューから、OCR を設定しているように見受けられます。

しかし、こちらで試したところ、PDF を編集しようとした場合に、ClearScan モードでの OCR が自動的に行われるようです。

一方で、こちらで行なっているのは、(Windows のメニューが分からずすみませんが、Mac では)

「スキャン補正」→「テキスト認識」→「このファイル内」→(メニューバーみたいなのが現れる)「設定」→(テキスト認識というダイアログが出る)「設定」→「文書の言語→日本語」、「出力→検索可能な画像 (非圧縮)」→「テキスト認識」(ボタン)

という流れです (多分 Windows でも同様のメニューがあるはずです)。

設定で、検索可能な画像 (非圧縮) (または圧縮) を選ぶと、日本語がうまく OCR 処理されません。

p.s.

一度お名前を間違えていました、すみません。


スキャン補正の設定でしたか。気づきませんでした。

確かにこちらでは、いずれの場合でも「PDFを編集」でOCR処理をかけていました。

そしてWindows/Macとも、あらためてスキャン補正からテキスト認識を行ってみました。

設定としては「検索可能な画像」(600dpi)と「検索可能な画像(非圧縮)」の両方をそれぞれなので、

環境差も含めて都合4回の変換をかけてみました。

ただ結果としては、やはり正常に処理されたことが確認できいました。

いずれも日本語UI+認識設定は日本語言語設定にて行っています。

2 replies

masayan24
masayan24Author
Inspiring
July 4, 2017

追加情報。

ソフトウェアを一旦アンインストールして、次のバージョンを再インストールしました。

version 2017.09.20044

英語環境・日本語環境共に確認しましたが、上記の現象は改善されず、依然

1. Searchable Image (日本語: 検索可能な画像)

2. Searchable Image (Exact) (日本語: 検索可能な画像 (非圧縮))

での OCR はうまくいきません。ちなみに半角英数字はうまく判別できているようです。

Inspiring
February 23, 2020

今更なんですが、同じような問題が生じましたので投稿してみます。私はAcrobat Pro XI使っていますが、やはり「Searchable Image」か「Searchable Image (Exact)」によってOCRすると、出来上がったPDFはPreviewからのコピー・アンド・ペーストができないのです。Acrobatの言語を日本語にしても、なにも変わらないです。

 

おそらく、私とmasayan24さん以外誰も気づかないだろうと思いますが、なにか改善する方法あれば非常に嬉しいです。

assause
Community Expert
Community Expert
February 23, 2020

Acrobat XI自体はすでにセキュリティサポートすら終了していますから、それがもし不具合としても更新されることはありません。

またPreviewがmacOSのそれだとした場合、Adobe自体が他の互換ビューワーの考慮をする必要がないわけですから、改善点にもならない可能性が高いところです。

assause
Community Expert
Community Expert
July 1, 2017

Acrobat DCのOCR処理は、基本的には設定言語に依存していたのではないかと思います。

他にある設定としては「PDFを編集」の中にある、「スキャンした文書」-「設定」を開き、

「次の言語でテキストを認識」で設定しなければならないはずです。

英語環境で使っている理由がわかりかねますが、

まずは該当設定やOSを含む言語設定を変更してみるところからではないでしょうか。

masayan24
masayan24Author
Inspiring
July 1, 2017

提案をありがとうございます。

英語環境で使っているのは、mac 自体を英語環境で使っているためです。

Acrobat DC の OCR 処理では、英語環境でも、日本語にて OCR 処理を選択することが可能です (Japanese が選択できます)。

設定から確認したところ、Japanese が選択されていました。

OS の言語設定の変更で再現するかどうかはまだ試していませんが、やってみようと思います。。。

Japanese が選択されていることを示すスクリーンショット、および

検索しても全く引っかからないことを示すスクリーンショットを添付しています。

assause
Community Expert
Community Expert
July 2, 2017

OCRの処理自体でその検索キーワード通りの認識が行われているかどうかは確認を取られたでしょうか。

単純なところですが、一度テキスト選択し、コピー&ペーストで外部のテキストエディタに貼りつけた場合の

結果を確認してみるなどです。

OCR自体はベストエフォートなので、言語設定がなされていても、100%変換というわけではないこともありますし、

そもそも現状で適正に日本語として変換されているかの確認も必要になると思います。