Participating Frequently

質問

テキスト認識可能なファイルかどうかを確認する方法について

Forum|Forum|2 years ago
August 30, 2023
返信数 3.
4828 ビュー

膨大な自炊書籍PDFを所持しており，複数のファイルに一括検索かけて書類を作成する

作業をしておりますが，中にはテキスト認識（OCR処理）のなされていないファイルが

混在しています。

逐一個々のファイルを開かずに，テキスト認識がされているファイルかどうかを確認する方法

はございますでしょうか（たとえば，テキスト認識されているファイルは拡張子が異なっている？など，環境はＷＩＮＤＯＷＳ11，Adobe Acrobat Pro）。

また，複数ファイルをまとめて一度に「スキャンとOCR-補正-テキスト文書」でテキスト認識が可能なファイルへの変換処理を施すことはできますでしょうか。

PDF の編集と変換

このトピックへの返信は締め切られました。

katayanagi51

Community Expert

全文検索ソフトがあるなら，例えば「の」で検索して引っかからなかったファイルをOCR未処理と見なすことができそうな気がします。見当違いなことを言ってたらすみません！

I

IYKU912作成者

Participating Frequently

ご提案ありがとうございます。実はドキュメントスキャナが出る前から，蔵書を20年程度かけてpdf化（最初はフラッドベッドスキャナ，jpegで1ページずつ保存していました）して，検索対象の書籍は余裕で「万」単位になっています（容量的には8~10tb分くらい）。「検索して引っかからない」書籍がどれなのか，探すのもまた膨大な時間がかかりそうで…。原稿進めながら，また模索したいと思います。ありがとうございました。

katayanagi51

Community Expert

（ウン万冊ですか…！　それは恐ろしい！！（褒めてます））

Ten A

Community Expert

OCRをかけたPDFには特殊なフォントが埋め込まれます。逆に画像のみのPDFにはフォント情報がリソース部分に含まれません。ので、PDFの内部構造を見れば判断は可能です。
問題は、その為に使えるツールが無いという事で、自身でスクリプトなりを組むことができなければこれは難しい話かと思います。

I

IYKU912作成者

Participating Frequently

返信いただきまして，ありがとうございます。当面は，一つ一つのファイルを開いて，検索できるかどうか，確認する，といった方法以外は難しい，ということがわかっただけで大きな収穫です。ありがとうございました。

assause

Community Expert

編集メニュー内にある「高度な検索」を使えば、フォルダ内のPDFすべてに文字列検索はできるようにはなっているのですが、最終的に、検索できる・できないのファイルに分類するわけではないので、されていないPDFをより分けるって目的だと合わないかもしれません。

OCRの有無や各種種類のPDFであっても、拡張子はいずれもPDFなので、拡張子での判別はできません。

勝手に書き換えるとダブルクリックや各種ソフトで開かなくなる、という点もあります。

I

IYKU912作成者

Participating Frequently

返信いただきまして，ありがとうございます。膨大な自炊文献ファイルを全文検索のソフトでキーワードを入力してヒットする文献を確認するといった作業をしております。膨大な文献のなかに透明化されていない書籍のファイルがあると，スルーされてしまうので，まさに「検索できる・できないのファイル」を確認する方法を探している所でした。「OCRの有無や各種種類のPDFであっても、拡張子はいずれもPDFなので、拡張子での判別はできません」こちら，ありがとうございます。当面は，ファイル開いて検索いれない限り，判断は難しい，ということを理解いたしました。

assause

Community Expert

そういえばもう一つの「複数ファイルをまとめてOCR処理」については、アクションを利用すれば、フォルダーに入れたPDFを処理して上書き保存することは可能です。

一応、その動作をする内容の設定スクリーンショットを貼っておきます。

サインアップ

ソーシャルログイン

コミュニティへログイン

ソーシャルログイン

ファイルをウイルススキャンする。

このファイルはダウンロードできません