Skip to main content
Inspiring
June 5, 2024
Answered

OCRで認識した部分をテキストに置換

  • June 5, 2024
  • 1 reply
  • 1106 views

pdf文書の一部に外字が画像で埋め込まれています.その外字部分をocr機能を用いると,検索可能なテキストとして認識されるのですが,その外字部分を認識したテキストに置換する方法はありますか?

Correct answer pdfダッピ

XObjectを含まないPDFに変換したいという事であれば、PDF 圧縮にある高度な最適化ツールで、以前の古いPDF (例えばAcrobat 4.0)などの設定を試してみてはいかがでしょうか?

 


XObjectを含まないPDFに変換した上,とりあえずの課題を解決することができました.ありがとうございました.また,壁にぶち当たったら相談させてください.

1 reply

Adobe Employee
June 11, 2024

Acrobat ProでOCRする際に、検索可能というオプションと編集可能というオプションがありますので、それを試していただくのも一つの方法です。すでに検索可能なテキストとして認識されている場合は、「印刷工程を使用」から「プリフライト」を選んでいただき、「OCRテキストを表示」を試していただくこともできるかと思います。

Inspiring
June 14, 2024

アドバイスありがとうございます.OCRする際に,「編集可能」というオプションを選択すると,「このページにはレンダリング可能なテキストが含まれています.」との理由でエラーが表示され,そのエラーの詳細を確認すると,tiffファイルに変換してからOCR「編集可能」を実施するようにアドバイスがありました.tiffファイルに変換してからOCRを行うと,まず,tiffファイルに変換する際に各ページ毎のファイルが生成されて1頁ごとに処理を行わなければならないこと,tiffファイルに変換した際に通常のテキスト部分もいったん画像化されて再度OCR処理されるので,精度が確保できない場合があること,などの問題が生じました.「このページにはレンダリング可能なテキストが含まれています.」とのエラー理由を解消するよい方法はありませんか?

Adobe Employee
June 16, 2024

「このページにはレンダリング可能なテキストが含まれています」の対処法に関しましては、勉強不足な点もあり分からないのですが、英語のコミュニティーで調べましたところ、印刷メニューからPDFファイルに出力してからする方法を提案している方がいました。もしかしたらそれでしたらtiffに変換せずにできるかも知れませんので、ぜひお試しください。