PDFファイルから日本語文字列を抽出する方法
PDFファイルから文字列を抽出するプログラムを書こうとしています。
ファイルからオブジェクトを読み取り、文字列を抽出しようとしていますが、
下記のような、文字のエンコードができないケースが発生します。
赤字部分のような現象、太字部分のような疑問点、について何かご存知の方がいらっしゃましたら、
御教示頂けますと大変助かります。
現象1. ()で囲まれたリテラル部分に、バイナリのようなコードが入っているPDFファイルがある
→()内にバイナリの値やCIDのような値が入っており、エンコードできずに化けた文字列として抽出してしまう
→()内に、ASCII ないしエスケープ文字以外が入っていることを検知できるような、タグのようなものがあるのでしょうか?
現象2. CMapが不完全と思われるPDFファイルがある
→<>で囲まれた文字コードを、PDFファイル内で格納されているCMap から検索しても、 ヒットしない
→かつ、PDFファイル内で /encoding で指定される設定が、
http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf
Table 118 – Predefined CJK CMap names
のJapanese のものとして定義されているもの 以外の文字列の場合があり、
適切なコード抽出ができない。
→どこかに、上記定義外の一般的なCMapのようなものが存在するのでしょうか?
以上、宜しくお願い致します。
