Skip to main content
Participating Frequently
February 8, 2016
Answered

OCRが画像の中の文字をまったく認識しません

  • February 8, 2016
  • 2 replies
  • 9423 views

文章と画像が混在するパワーポイントファイルをPDFにしましたが、貼ってある画像の中のテキストをまったく読み込んでくれません。

自動で読み取ってくれるものと思っていたのですが・・・・ 言語は日本語と英語の混在です。

よろしくお願いいたします。

This topic has been closed for replies.
Correct answer Subi Omu

ご回答どうもありがとうございます。

有料登録したのは Creative Cloud ではなくAdobe Export PDFです。

(「PDFをWORDに変換する」をクリックしたときに、「登録してください」、と出たのでそのまま有料登録しました。月額200円のです。)

Acrobat DCは過去にいったんダウンロードしたのですが、そこから「その他の形式で保存」を選んでテキストファイルにすると、XIまではそのまま保存できたのに、なぜかスペースが全部なくなってしまう(単語と単語の間のスペースが全部なくなってしまう)ので、アンインストールしてXIに戻して使っています。

これまではテキストファイルに保存した内容をもう一度空のWORDに貼り付けて文字数を数えていたので、PDFから直接WORDに変換できるのはありがたいのですが、画像化された部分が読み込まれないと、目視で全部タイピングすることになるので・・・・

(PDFからWORDにするのは単に文字数を数えるためです。文字数数えるためだけに全部タイピングするのがどうも・・・・・そのためにわざわざCreative Cloud に登録するのもコスパ悪すぎます。)

文字数を数えるだけなので何か良い方法があると良いのですが。


なるほど…翻訳のお仕事でしょうか。

Adobe Export PDFはOCR機能がありますね。

https://helpx.adobe.com/jp/document-cloud/help/using-ocr-exportpdf.html

こちらは文字データを一切含まない、画像から作成したPDFから文字を抽出する機能ですので、PowerPointやWordから作成したPDFには使えません。いきなりPDFでOCR機能が使えなかったのも同じ理由だと思います。

面倒ですがPDFをいったん1ページずつ画像化すればAdobe Export PDFでもいきなりPDFでもテキスト認識できます。

PowerPointからテキスト認識したいページを画像で書き出し→いきなりPDFでPDFにまとめて「囲んで読取」機能で必要なところだけOCR、が一番簡単そうですね。

2 replies

assause
Community Expert
Community Expert
February 9, 2016

利用されているバージョンが不明ですが、下記のようなメッセージが出ませんでしょうか。

「次の理由により、このページのテキスト認識を実行できませんでした。

このページにはレンダリング可能なテキストが含まれています。」

(Acrobat DCの例)

AcrobatのOCR機能については、テキスト情報が含まれている場合には機能せず、

上記のようなメッセージが表示されるだけです。

OCRを使う場合は原則としてスキャンしたビットマップ画像に対してだけになります。

Participating Frequently
February 9, 2016

どうもありがとうございます。メッセージは一切でません。普通にPDFからWORDができますが、画像はそのまま画像のままです。Acrobat DCではなくXI使用です。

ビットマップ画像に対してだけ、ということなのですが、パワーポイントのグループ化したものを画像としてコピーしたものが貼り付けてあるだけで、単独の画像ファイルはありません。

Participating Frequently
February 8, 2016

補足です。パワーポイントからPDFにするとテキスト読み込みができるPDFになると思ったがならない、それならそれをWORDに変換してみたら? というのもやってみましたがもともとの文章がテキストになっただけで画像は画像のままはりつけられたWORDでした。

仕方なく、結局画像の文字を目視でタイピングしています・・・・

Subi Omu
Participating Frequently
February 9, 2016

Acrobatは「テキスト認識」という機能でPDF化した画像からテキストを読み取ることができます。

ですが、この機能はWordやPowerpointで作成したPDFには適用できません。「画像にテキストデータが含まれているため認識できません」というダイアログが出るだけです。

Powerpointを別名保存でjpgなどの画像ファイルに保存して、Acrobatで開けばテキスト変換ができます。

https://helpx.adobe.com/jp/acrobat/kb/649.html

こちらの「B-2. 取り込んだ後にOCRを適用 」を参照してください。

ただ、変換精度は正直あまり高くないです。

Participating Frequently
February 9, 2016

どうもありがとうございます。

Adobe はReader XIで Cloud でPDFからWORDなどに変換しています。

なので、いただいたURLに

次のいずれかの操作を行います。

  • すぐにスキャナーで読み込む場合
    ファイル/作成/スキャナーから PDF/カスタムスキャン を選択します。
  • プリセット設定を作成し、後からスキャナーで読み込む場合
    ファイル/作成/スキャナーから PDF/プリセットを設定 を選択します。

という説明がありましたが、そもそもファイルの下の「作成」というのがないのです。


ですので、

>取り込んだ後にOCRを適用


をチェックしようにも出てきません・・・・