PDFファイルから日本語文字列を抽出する方法

Question

PDFファイルから文字列を抽出するプログラムを書こうとしています。ファイルからオブジェクトを読み取り、文字列を抽出しようとしていますが、下記のような、文字のエンコードができないケースが発生します。赤字部分のような現象、太字部分のような疑問点、について何かご存知の方がいらっしゃましたら、御教示頂けますと大変助かります。現象１． ()で囲まれたリテラル部分に、バイナリのようなコードが入っているPDFファイルがある　→()内にバイナリの値やCIDのような値が入っており、エンコードできずに化けた文字列として抽出してしまう　→()内に、ASCII ないしエスケープ文字以外が入っていることを検知できるような、タグのようなものがあるのでしょうか？現象２． CMapが不完全と思われるPDFファイルがある　→<>で囲まれた文字コードを、PDFファイル内で格納されているCMap から検索しても、 ヒットしない　→かつ、PDFファイル内で /encoding で指定される設定が、　　　http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf 　　　Table 118 – Predefined CJK CMap names　　のJapanese のものとして定義されているもの　以外の文字列の場合があり、　　適切なコード抽出ができない。　→どこかに、上記定義外の一般的なCMapのようなものが存在するのでしょうか？以上、宜しくお願い致します。

Sign up

To post, reply, or follow discussions, please sign in with your Adobe ID.

Sign in to Adobe Community

To post, reply, or follow discussions, please sign in with your Adobe ID.