Skip to main content
Participant
July 2, 2024
Answered

AdobeAcrobatPro 日本語書類OCR時の文字コードについて

  • July 2, 2024
  • 1 reply
  • 1276 views

AdobeAcrobatProでOCR処理を実施したPDFファイルを海外で閲覧した際に、OCRが文字化けして確認できないという連絡がありました。
ANSIやShift_JISの文字コードが原因ではないかと推測しているのですが、UTF-8でOCR処理を実施する方法はありますでしょうか?
もしくは、海外の環境で文字化けする原因についてお分かりでしたらご教示ください。
よろしくお願いします。

This topic has been closed for replies.
Correct answer Ten A

OCRされたテキストは透明テキストとして配置されるんですけど、透明なんでテキストの状態に関しては位置が近い状態になるようにだけ配慮されています。
そういった事情からフォント自体は埋め込まれません。そして、エンコーディング自体はIdentitiyHとかVとかのカスタムエンコーディングで取り扱われます。これはサブセットとして効率よく取り扱うためなんですけど日本語でOCRかけたものに関しては日本語環境でしか正しくテキスト情報が拾えません。
MSゴシックとかがインストールされていればいいんですけど、英語版のOSをにそれは期待薄なんで、プリフライトパネルのフィクスアップを利用してフォントを埋め込んでください。検証できる環境がないので未検証なんですけど、これで大丈夫だと思います。

1 reply

Ten A
Community Expert
Ten ACommunity ExpertCorrect answer
Community Expert
July 2, 2024

OCRされたテキストは透明テキストとして配置されるんですけど、透明なんでテキストの状態に関しては位置が近い状態になるようにだけ配慮されています。
そういった事情からフォント自体は埋め込まれません。そして、エンコーディング自体はIdentitiyHとかVとかのカスタムエンコーディングで取り扱われます。これはサブセットとして効率よく取り扱うためなんですけど日本語でOCRかけたものに関しては日本語環境でしか正しくテキスト情報が拾えません。
MSゴシックとかがインストールされていればいいんですけど、英語版のOSをにそれは期待薄なんで、プリフライトパネルのフィクスアップを利用してフォントを埋め込んでください。検証できる環境がないので未検証なんですけど、これで大丈夫だと思います。

Participant
July 2, 2024

丁寧にご教示いただきありがとうございます。
フォントを埋め込んで解決するか確認してみます。

IceFloe
Participating Frequently
July 9, 2024

相手の方がMUI版を使っていない場合は
フォントパックの導入が有効?『かも』しれませんね
(OCRには直接は関係ないんですけどね…汗)
参考まで
Reader | 64-bit Font Pack and Spelling Dictionary
https://helpx.adobe.com/acrobat/kb/font-pack-spelling-dictionary-64-bit-windows.html

 


32-bit Font Pack and Spelling Dictionary Pack for Acrobat Reader on Windows
https://helpx.adobe.com/in/acrobat/kb/windows-font-packs-32-bit-reader.html#Requirements

 

 

Font pack and spelling dictionary pack for Acrobat and Reader on macOS
https://helpx.adobe.com/in/acrobat/kb/macintosh-font-packs--acrobat---reader-.html

 

参考まで