Skip to main content
こやし
Participant
February 23, 2018
Question

Acrobat DistillerでPDFを再変換すると、テキスト情報が文字化けする

  • February 23, 2018
  • 2 replies
  • 7066 views

【使用製品】

Acrobat Distiller 15.0 (Windows)

【現象】

Acrobat Distillerを使用しPDFを再変換すると、画面の表示上は文字が正しく文表示されますが、

メモ帳などにコピー&ペーストすると「□□□」となり、正しくコピーできません。

【再現方法】

  1. 適当なword文章を作成します。
  2. wordで[ファイル]>[印刷]をクリックし、プリンターから[AdobePDF]を選択します。
  3. [印刷]をクリックし、PDFを出力します。
  4. 出力したPDFをAcrobatで開き、文字列をメモ帳にコピーし、表示を確認します。(この時点では文字列は正常にコピーされます)
  5. 出力したPDFをAcrobatで開き、[ファイル]>[印刷]をクリックし、プリンターから[AdobePDF]を選択します。
  6. [印刷]をクリックし、PDFを出力します。
  7. 出力したPDFをAcrobatで開き、文字列をメモ帳にコピーし、表示を確認します。(文字化けします)

【補足】

PDFから変換した際に文字化けするフォントに共通する事項として、種類が「TrueType(CID)」、エンコードが「Identity-H」であることが挙げられます。

(ただし、wordから作成したPDFでは「Identity-H」でも文字化けしません)

上記のことから、DistillerでPDFを再変換すると、Cmapが欠落するのではと推測しています。(あまり詳しいことは存じ上げません)

【質問事項】

  1. これはDistillerのバグでしょうか。
  2. こうなってしまったPDFファイルを修復することは出来るでしょうか。

情報が不足していたらお知らせ頂ければと思います。

以上、どなたかご存知であればご回答頂ければ幸いです。

This topic has been closed for replies.

2 replies

Omachi
Legend
February 23, 2018

回答ではありませんが参考に。

PDFビューアを「Adobe Acrrobat Pro DC(2018)」「Foxit Reader」、

プリンタを「Adobe PDF」「Foxit Reader PDF Printer」「Microsoft Print to PDF」

の組み合わせで色々やってみましたが、

「Adobe Acrrobat Pro DC(2018)」「Adobe PDF」の組み合わせが

一番まともで、文字化けするものの、文字として認識しました。

他の組み合わせでは、そもそも文字として認識しない(画像化される)など

全く使えるものではありません。

assauseさんのおっしゃられるようにPDFはテキストの再利用を念頭には置いていないので

そもそも再度PDF化するということを考慮していませんし、することに意味がありません。

(単にデータサイズを増やすだけです)

assause
Community Expert
Community Expert
February 23, 2018

PDFからPSを経由して再度PDF化を行うということだと、

テキスト情報は多重化されてしまって元のコードポイントを保てるというものではない状態です。

また、PDF自体がもともとテキストの再利用を念頭に置いたデータフォーマットではありません。

確かに内部のマッピングテーブル次第ですが、それでも万全とはいえないところです。

いずれにしても今回の場合、再PDF化する理由もよくわからないところですし、

一度それでテキスト状態が実質的に破壊された場合、元に戻すのはまず不可能でしょう。

こやし
こやしAuthor
Participant
February 26, 2018

ご回答ありがとうございます。

説明が抜けておりましたが、PDFをDistillerで再変換する理由としては、

何らかの理由で破損したPDFを修復する為となります。

PDF自体がもともとテキストの再利用を念頭に置いた

データフォーマットでは無いというのはおっしゃる通りかと思いますが、

英数字では問題無いことを考えると、最低限検索が出来る程度の状態であってほしいところです。

この状態になったPDFを後から元に戻すのは難しいという旨、承知いたしました。

個人的にはDistillerのバグという認識なので、Adobeに問い合わせたいと思います。

assause
Community Expert
Community Expert
February 26, 2018

PostScriptデータ経由で再PDF化した場合は破損ファイルの修復にはなりえないと思います。

破損してたらそもそも開けないと思いますし、開いて破損ということであれば

要素自体が欠落しているわけで、元のようにはならないはずです。

その場合はオリジナルデータから再生成するしかないだろうと思います。

あわせて、コードポイントの変化はどちらかというとDistillerだけではなく、

PostScriptにした時点での変化と考えたほうがいいでしょう。

Distillerは実質的にはコンバーターにしかすぎないと考えたほうが自然なところです。