Skip to main content
5138 Posts
 質問
PDFファイルから日本語文字列を抽出する方法

PDFファイルから文字列を抽出するプログラムを書こうとしています。ファイルからオブジェクトを読み取り、文字列を抽出しようとしていますが、下記のような、文字のエンコードができないケースが発生します。赤字部分のような現象、太字部分のような疑問点、について何かご存知の方がいらっしゃましたら、御教示頂けますと大変助かります。現象1. ()で囲まれたリテラル部分に、バイナリのようなコードが入っているPDFファイルがある →()内にバイナリの値やCIDのような値が入っており、エンコードできずに化けた文字列として抽出してしまう →()内に、ASCII ないしエスケープ文字以外が入っていることを検知できるような、タグのようなものがあるのでしょうか?現象2. CMapが不完全と思われるPDFファイルがある →<>で囲まれた文字コードを、PDFファイル内で格納されているCMap から検索しても、 ヒットしない →かつ、PDFファイル内で /encoding で指定される設定が、   http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf    Table 118 – Predefined CJK CMap names  のJapanese のものとして定義されているもの 以外の文字列の場合があり、  適切なコード抽出ができない。 →どこかに、上記定義外の一般的なCMapのようなものが存在するのでしょうか?以上、宜しくお願い致します。