終了

テキスト認識可能なファイルかどうかを確認する方法について

Community Beginner ,
Aug 30, 2023 Aug 30, 2023

膨大な自炊書籍PDFを所持しており,複数のファイルに一括検索かけて書類を作成する

作業をしておりますが,中にはテキスト認識(OCR処理)のなされていないファイルが

混在しています。

逐一個々のファイルを開かずに,テキスト認識がされているファイルかどうかを確認する方法

はございますでしょうか(たとえば,テキスト認識されているファイルは拡張子が異なっている?など,環境はWINDOWS11,Adobe Acrobat Pro)。

また,複数ファイルをまとめて一度に「スキャンとOCR-補正-テキスト文書」でテキスト認識が可能なファイルへの変換処理を施すことはできますでしょうか。

キーワード
PDF の編集と変換
4.8K
翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 30, 2023 Aug 30, 2023

編集メニュー内にある「高度な検索」を使えば、フォルダ内のPDFすべてに文字列検索はできるようにはなっているのですが、最終的に、検索できる・できないのファイルに分類するわけではないので、されていないPDFをより分けるって目的だと合わないかもしれません。

 

OCRの有無や各種種類のPDFであっても、拡張子はいずれもPDFなので、拡張子での判別はできません。

勝手に書き換えるとダブルクリックや各種ソフトで開かなくなる、という点もあります。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 30, 2023 Aug 30, 2023

返信いただきまして,ありがとうございます。膨大な自炊文献ファイルを全文検索のソフトでキーワードを入力してヒットする文献を確認するといった作業をしております。膨大な文献のなかに透明化されていない書籍のファイルがあると,スルーされてしまうので,まさに「検索できる・できないのファイル」を確認する方法を探している所でした。「OCRの有無や各種種類のPDFであっても、拡張子はいずれもPDFなので、拡張子での判別はできません」こちら,ありがとうございます。当面は,ファイル開いて検索いれない限り,判断は難しい,ということを理解いたしました。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 30, 2023 Aug 30, 2023

そういえばもう一つの「複数ファイルをまとめてOCR処理」については、アクションを利用すれば、フォルダーに入れたPDFを処理して上書き保存することは可能です。

一応、その動作をする内容の設定スクリーンショットを貼っておきます。

 

Acrobat_Action_OCR.png

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 30, 2023 Aug 30, 2023

ありがとうございます。こちらの手段,はじめて知りました。画像,大変わかりやすくて助かります。あとでじっくり実験してみたいと思います。まずは簡単な御礼で申し訳ございません。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 30, 2023 Aug 30, 2023

OCRをかけたPDFには特殊なフォントが埋め込まれます。逆に画像のみのPDFにはフォント情報がリソース部分に含まれません。ので、PDFの内部構造を見れば判断は可能です。
問題は、その為に使えるツールが無いという事で、自身でスクリプトなりを組むことができなければこれは難しい話かと思います。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 30, 2023 Aug 30, 2023

返信いただきまして,ありがとうございます。当面は,一つ一つのファイルを開いて,検索できるかどうか,確認する,といった方法以外は難しい,ということがわかっただけで大きな収穫です。ありがとうございました。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 30, 2023 Aug 30, 2023

全文検索ソフトがあるなら,例えば「の」で検索して引っかからなかったファイルをOCR未処理と見なすことができそうな気がします。見当違いなことを言ってたらすみません!

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 30, 2023 Aug 30, 2023

ご提案ありがとうございます。実はドキュメントスキャナが出る前から,蔵書を20年程度かけてpdf化(最初はフラッドベッドスキャナ,jpegで1ページずつ保存していました)して,検索対象の書籍は余裕で「万」単位になっています(容量的には8~10tb分くらい)。「検索して引っかからない」書籍がどれなのか,探すのもまた膨大な時間がかかりそうで…。原稿進めながら,また模索したいと思います。ありがとうございました。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 30, 2023 Aug 30, 2023

(ウン万冊ですか…! それは恐ろしい!!(褒めてます))

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
ファン ,
Aug 30, 2023 Aug 30, 2023

横から失礼します
日本語OCRについては
Acrobatの日本語OCRは…アレ…ですが
一般的な画像に対しての日本語OCR精度は、10年前とは
比べものにならないほど良くなっています。
自分なら
うん万ファイルって事なら
専用に1台PC買って
いっそのこと、全部OCR掛け直すかな…
それと…蛇足で
AIの発達が目覚ましい昨今ですので
1〜2年待ったら、OCRの精度がスゴイ事になってるかも?
その間に日本語OCRに対してアンテナ張っておくと幸せになれる『かも』ですね
参考まで

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 31, 2023 Aug 31, 2023
最新

ありがとうございます。確かにテキスト認識の可否を確認するより,一括でocr処理する手段を学びましたので,どこかで全部処理したほうがいいのかもしれません。当方,法人で,それなりの機能をもつパソコンが数台あるため,どこかで少しずつ進めようと思います。ただし,年間の多くが締め切りに追われ,原稿執筆がメインの業務であるため,その合間に…となりますが。アドバイスありがとうございました。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines