Skip to main content
Participating Frequently
August 30, 2023
Question

テキスト認識可能なファイルかどうかを確認する方法について

  • August 30, 2023
  • 3 replies
  • 4686 views

膨大な自炊書籍PDFを所持しており,複数のファイルに一括検索かけて書類を作成する

作業をしておりますが,中にはテキスト認識(OCR処理)のなされていないファイルが

混在しています。

逐一個々のファイルを開かずに,テキスト認識がされているファイルかどうかを確認する方法

はございますでしょうか(たとえば,テキスト認識されているファイルは拡張子が異なっている?など,環境はWINDOWS11,Adobe Acrobat Pro)。

また,複数ファイルをまとめて一度に「スキャンとOCR-補正-テキスト文書」でテキスト認識が可能なファイルへの変換処理を施すことはできますでしょうか。

This topic has been closed for replies.

3 replies

katayanagi51
Community Expert
Community Expert
August 31, 2023

全文検索ソフトがあるなら,例えば「の」で検索して引っかからなかったファイルをOCR未処理と見なすことができそうな気がします。見当違いなことを言ってたらすみません!

IYKU912Author
Participating Frequently
August 31, 2023

ご提案ありがとうございます。実はドキュメントスキャナが出る前から,蔵書を20年程度かけてpdf化(最初はフラッドベッドスキャナ,jpegで1ページずつ保存していました)して,検索対象の書籍は余裕で「万」単位になっています(容量的には8~10tb分くらい)。「検索して引っかからない」書籍がどれなのか,探すのもまた膨大な時間がかかりそうで…。原稿進めながら,また模索したいと思います。ありがとうございました。

katayanagi51
Community Expert
Community Expert
August 31, 2023

(ウン万冊ですか…! それは恐ろしい!!(褒めてます))

Ten A
Community Expert
Community Expert
August 31, 2023

OCRをかけたPDFには特殊なフォントが埋め込まれます。逆に画像のみのPDFにはフォント情報がリソース部分に含まれません。ので、PDFの内部構造を見れば判断は可能です。
問題は、その為に使えるツールが無いという事で、自身でスクリプトなりを組むことができなければこれは難しい話かと思います。

IYKU912Author
Participating Frequently
August 31, 2023

返信いただきまして,ありがとうございます。当面は,一つ一つのファイルを開いて,検索できるかどうか,確認する,といった方法以外は難しい,ということがわかっただけで大きな収穫です。ありがとうございました。

assause
Community Expert
Community Expert
August 30, 2023

編集メニュー内にある「高度な検索」を使えば、フォルダ内のPDFすべてに文字列検索はできるようにはなっているのですが、最終的に、検索できる・できないのファイルに分類するわけではないので、されていないPDFをより分けるって目的だと合わないかもしれません。

 

OCRの有無や各種種類のPDFであっても、拡張子はいずれもPDFなので、拡張子での判別はできません。

勝手に書き換えるとダブルクリックや各種ソフトで開かなくなる、という点もあります。

IYKU912Author
Participating Frequently
August 31, 2023

返信いただきまして,ありがとうございます。膨大な自炊文献ファイルを全文検索のソフトでキーワードを入力してヒットする文献を確認するといった作業をしております。膨大な文献のなかに透明化されていない書籍のファイルがあると,スルーされてしまうので,まさに「検索できる・できないのファイル」を確認する方法を探している所でした。「OCRの有無や各種種類のPDFであっても、拡張子はいずれもPDFなので、拡張子での判別はできません」こちら,ありがとうございます。当面は,ファイル開いて検索いれない限り,判断は難しい,ということを理解いたしました。

assause
Community Expert
Community Expert
August 31, 2023

そういえばもう一つの「複数ファイルをまとめてOCR処理」については、アクションを利用すれば、フォルダーに入れたPDFを処理して上書き保存することは可能です。

一応、その動作をする内容の設定スクリーンショットを貼っておきます。