Skip to main content
June 1, 2016
Question

PDFファイルから日本語文字列を抽出する方法

  • June 1, 2016
  • 0 replies
  • 1127 views

PDFファイルから文字列を抽出するプログラムを書こうとしています。

ファイルからオブジェクトを読み取り、文字列を抽出しようとしていますが、

下記のような、文字のエンコードができないケースが発生します。

赤字部分のような現象、太字部分のような疑問点、について何かご存知の方がいらっしゃましたら、

御教示頂けますと大変助かります。

現象1. ()で囲まれたリテラル部分に、バイナリのようなコードが入っているPDFファイルがある

 →()内にバイナリの値やCIDのような値が入っており、エンコードできずに化けた文字列として抽出してしまう

 →()内に、ASCII ないしエスケープ文字以外が入っていることを検知できるような、タグのようなものがあるのでしょうか?

現象2. CMapが不完全と思われるPDFファイルがある

 →<>で囲まれた文字コードを、PDFファイル内で格納されているCMap から検索しても、 ヒットしない

 →かつ、PDFファイル内で /encoding で指定される設定が、

   http://wwwimages.adobe.com/content/dam/Adobe/en/devnet/pdf/pdfs/PDF32000_2008.pdf

   Table 118 – Predefined CJK CMap names

  のJapanese のものとして定義されているもの 以外の文字列の場合があり、

  適切なコード抽出ができない。

 →どこかに、上記定義外の一般的なCMapのようなものが存在するのでしょうか?

以上、宜しくお願い致します。

This topic has been closed for replies.