AdobeAcrobatPro　日本語書類OCR時の文字コードについて

レポート · Jul 02, 2024

AdobeAcrobatProでOCR処理を実施したPDFファイルを海外で閲覧した際に、OCRが文字化けして確認できないという連絡がありました。
ANSIやShift_JISの文字コードが原因ではないかと推測しているのですが、UTF-8でOCR処理を実施する方法はありますでしょうか？
もしくは、海外の環境で文字化けする原因についてお分かりでしたらご教示ください。
よろしくお願いします。

レポート · Jul 02, 2024

OCRされたテキストは透明テキストとして配置されるんですけど、透明なんでテキストの状態に関しては位置が近い状態になるようにだけ配慮されています。
そういった事情からフォント自体は埋め込まれません。そして、エンコーディング自体はIdentitiyHとかVとかのカスタムエンコーディングで取り扱われます。これはサブセットとして効率よく取り扱うためなんですけど日本語でOCRかけたものに関しては日本語環境でしか正しくテキスト情報が拾えません。
MSゴシックとかがインストールされていればいいんですけど、英語版のOSをにそれは期待薄なんで、プリフライトパネルのフィクスアップを利用してフォントを埋め込んでください。検証できる環境がないので未検証なんですけど、これで大丈夫だと思います。

レポート · Jul 02, 2024

丁寧にご教示いただきありがとうございます。
フォントを埋め込んで解決するか確認してみます。

レポート · Jul 08, 2024

相手の方がMUI版を使っていない場合は
フォントパックの導入が有効？『かも』しれませんね
（OCRには直接は関係ないんですけどね…汗）
参考まで
Reader | 64-bit Font Pack and Spelling Dictionary
https://helpx.adobe.com/acrobat/kb/font-pack-spelling-dictionary-64-bit-windows.html

32-bit Font Pack and Spelling Dictionary Pack for Acrobat Reader on Windows
https://helpx.adobe.com/in/acrobat/kb/windows-font-packs-32-bit-reader.html#Requirements

Font pack and spelling dictionary pack for Acrobat and Reader on macOS
https://helpx.adobe.com/in/acrobat/kb/macintosh-font-packs--acrobat---reader-.html

参考まで

レポート · Jul 09, 2024

ご教示いただきありがとうございます。

参考にさせていただきます。

AdobeAcrobatPro 日本語書類OCR時の文字コードについて

1 件の正解

AdobeAcrobatPro　日本語書類OCR時の文字コードについて