リンクをクリップボードにコピー
コピー完了
膨大な自炊書籍PDFを所持しており,複数のファイルに一括検索かけて書類を作成する
作業をしておりますが,中にはテキスト認識(OCR処理)のなされていないファイルが
混在しています。
逐一個々のファイルを開かずに,テキスト認識がされているファイルかどうかを確認する方法
はございますでしょうか(たとえば,テキスト認識されているファイルは拡張子が異なっている?など,環境はWINDOWS11,Adobe Acrobat Pro)。
また,複数ファイルをまとめて一度に「スキャンとOCR-補正-テキスト文書」でテキスト認識が可能なファイルへの変換処理を施すことはできますでしょうか。
リンクをクリップボードにコピー
コピー完了
編集メニュー内にある「高度な検索」を使えば、フォルダ内のPDFすべてに文字列検索はできるようにはなっているのですが、最終的に、検索できる・できないのファイルに分類するわけではないので、されていないPDFをより分けるって目的だと合わないかもしれません。
OCRの有無や各種種類のPDFであっても、拡張子はいずれもPDFなので、拡張子での判別はできません。
勝手に書き換えるとダブルクリックや各種ソフトで開かなくなる、という点もあります。
リンクをクリップボードにコピー
コピー完了
返信いただきまして,ありがとうございます。膨大な自炊文献ファイルを全文検索のソフトでキーワードを入力してヒットする文献を確認するといった作業をしております。膨大な文献のなかに透明化されていない書籍のファイルがあると,スルーされてしまうので,まさに「検索できる・できないのファイル」を確認する方法を探している所でした。「OCRの有無や各種種類のPDFであっても、拡張子はいずれもPDFなので、拡張子での判別はできません」こちら,ありがとうございます。当面は,ファイル開いて検索いれない限り,判断は難しい,ということを理解いたしました。
リンクをクリップボードにコピー
コピー完了
そういえばもう一つの「複数ファイルをまとめてOCR処理」については、アクションを利用すれば、フォルダーに入れたPDFを処理して上書き保存することは可能です。
一応、その動作をする内容の設定スクリーンショットを貼っておきます。
リンクをクリップボードにコピー
コピー完了
ありがとうございます。こちらの手段,はじめて知りました。画像,大変わかりやすくて助かります。あとでじっくり実験してみたいと思います。まずは簡単な御礼で申し訳ございません。
リンクをクリップボードにコピー
コピー完了
OCRをかけたPDFには特殊なフォントが埋め込まれます。逆に画像のみのPDFにはフォント情報がリソース部分に含まれません。ので、PDFの内部構造を見れば判断は可能です。
問題は、その為に使えるツールが無いという事で、自身でスクリプトなりを組むことができなければこれは難しい話かと思います。
リンクをクリップボードにコピー
コピー完了
返信いただきまして,ありがとうございます。当面は,一つ一つのファイルを開いて,検索できるかどうか,確認する,といった方法以外は難しい,ということがわかっただけで大きな収穫です。ありがとうございました。
リンクをクリップボードにコピー
コピー完了
全文検索ソフトがあるなら,例えば「の」で検索して引っかからなかったファイルをOCR未処理と見なすことができそうな気がします。見当違いなことを言ってたらすみません!
リンクをクリップボードにコピー
コピー完了
ご提案ありがとうございます。実はドキュメントスキャナが出る前から,蔵書を20年程度かけてpdf化(最初はフラッドベッドスキャナ,jpegで1ページずつ保存していました)して,検索対象の書籍は余裕で「万」単位になっています(容量的には8~10tb分くらい)。「検索して引っかからない」書籍がどれなのか,探すのもまた膨大な時間がかかりそうで…。原稿進めながら,また模索したいと思います。ありがとうございました。
リンクをクリップボードにコピー
コピー完了
(ウン万冊ですか…! それは恐ろしい!!(褒めてます))
リンクをクリップボードにコピー
コピー完了
横から失礼します
日本語OCRについては
Acrobatの日本語OCRは…アレ…ですが
一般的な画像に対しての日本語OCR精度は、10年前とは
比べものにならないほど良くなっています。
自分なら
うん万ファイルって事なら
専用に1台PC買って
いっそのこと、全部OCR掛け直すかな…
それと…蛇足で
AIの発達が目覚ましい昨今ですので
1〜2年待ったら、OCRの精度がスゴイ事になってるかも?
その間に日本語OCRに対してアンテナ張っておくと幸せになれる『かも』ですね
参考まで
リンクをクリップボードにコピー
コピー完了
ありがとうございます。確かにテキスト認識の可否を確認するより,一括でocr処理する手段を学びましたので,どこかで全部処理したほうがいいのかもしれません。当方,法人で,それなりの機能をもつパソコンが数台あるため,どこかで少しずつ進めようと思います。ただし,年間の多くが締め切りに追われ,原稿執筆がメインの業務であるため,その合間に…となりますが。アドバイスありがとうございました。
アドビコミュニティ(フォーラム)が進化します!新しい体験を1月にお届けします。
詳細はこちら