リンクをクリップボードにコピー
コピー完了
ある文章(画像ファイル)をOCR認識させてテキスト化したのですが、ファイルサイズが大きく、コンテンツの容量を調査してみたところ、「フォント」が90%以上を占めていました。
そこで、フォントの数を減らせばいいのかと思い、文書内のフォントをMS明朝で手作業で統合したところ、ファイルサイズが変わりませんでした。フォントがほとんどです。
さらに、試しにファイル内のテキストを全て削除してみたところ白紙のファイルのはずなのに、フォントの容量がかなりありました。
そこで
①そもそもOCR認識の際に、フォントを指定してテキスト認識することはできないか?(例えば認識したテキストを全てMS明朝体で保存するなど)
欲しいのはテキストデータなので、元の画像とは見た目が乖離してしも構いません。
②仮に①のような認識方法ができないとしても、手動でフォントの数を減らした後で、フォントの容量を小さくする方法はないでしょうか。つまり、実際にファイル内で使われているのはフォントは1種類のはずなので、使われていないフォント情報?は削除したりすることで容量を減らすことができないか?
究極的な目標は、ファイルサイズを小さくすることです。
リンクをクリップボードにコピー
コピー完了
「究極的な目標は、ファイルサイズを小さくする」そのファイルは,OCRで処理の済んだPDFデータのままでなくてはいけないのでしょうか。
テキスト認識後は「別名保存」「書き出し」あるいはコピペで文書ファイルにするのが普通な気がするのですが…?
リンクをクリップボードにコピー
コピー完了
すみません、前提としてPDFファイルのまま使用したいです。
あくまで、OCRでテキスト認識したファイルの「フォント」が占める容量があまりに多いので、それを小さくしたいということです。
リンクをクリップボードにコピー
コピー完了
なるほど、思い込みでトンチンカンなことを書いて申し訳ないです(^^;;
リンクをクリップボードにコピー
コピー完了
バージョン等が不明ですが、テキスト認識については設定が用意されており、
その状態によって処理された結果が変わってきます。
Acrobat DC(conitinious)のテキスト認識設定のスクリーンショットを用意しました。
前者は「スキャナーからPDF」の、後者はスキャン補正時のテキスト認識の設定ですが、
今回、埋め込みフォントになっているとした場合は「編集可能なテキストと画像」として
設定されている可能性が高いです。
この場合は画像認識と同時にその文字はフォント化扱いになる状態であるため、
結果として埋め込みフォント扱いになり、編集機能ではスキャン部分であったとしても、
文字認識したものはまるごと文字扱いになります。
一方「検索可能な画像」の場合は埋め込みされずに、透明テキスト扱いになるため、
テキスト自体は編集機能でも選ぶことができなくなります。
よって、今回の場合はまず一度、設定を変えてどうなるかを確認が必要です。
もっとも、検索可能な画像にして埋め込みなしにしても必ず軽くなるわけではないですし、
その逆でテキスト扱いになっても軽量化される場合もあります。
ケースバイケースですから、その点は利用方法も含めて判断が欠かせなくなります。