AdobeAcrobatPro 日本語書類OCR時の文字コードについて
AdobeAcrobatProでOCR処理を実施したPDFファイルを海外で閲覧した際に、OCRが文字化けして確認できないという連絡がありました。
ANSIやShift_JISの文字コードが原因ではないかと推測しているのですが、UTF-8でOCR処理を実施する方法はありますでしょうか?
もしくは、海外の環境で文字化けする原因についてお分かりでしたらご教示ください。
よろしくお願いします。
AdobeAcrobatProでOCR処理を実施したPDFファイルを海外で閲覧した際に、OCRが文字化けして確認できないという連絡がありました。
ANSIやShift_JISの文字コードが原因ではないかと推測しているのですが、UTF-8でOCR処理を実施する方法はありますでしょうか?
もしくは、海外の環境で文字化けする原因についてお分かりでしたらご教示ください。
よろしくお願いします。
OCRされたテキストは透明テキストとして配置されるんですけど、透明なんでテキストの状態に関しては位置が近い状態になるようにだけ配慮されています。
そういった事情からフォント自体は埋め込まれません。そして、エンコーディング自体はIdentitiyHとかVとかのカスタムエンコーディングで取り扱われます。これはサブセットとして効率よく取り扱うためなんですけど日本語でOCRかけたものに関しては日本語環境でしか正しくテキスト情報が拾えません。
MSゴシックとかがインストールされていればいいんですけど、英語版のOSをにそれは期待薄なんで、プリフライトパネルのフィクスアップを利用してフォントを埋め込んでください。検証できる環境がないので未検証なんですけど、これで大丈夫だと思います。
Already have an account? Login
Enter your E-mail address. We'll send you an e-mail with instructions to reset your password.