PDFのテキストを取り出したいのですが文字化けします

Question

PDFのテキストを取り出したいのですが文字化けしますクライアントから原稿として支給されたPDFからテキストを取り出したいのですが文字化けしてしまいます。Acrobatで開いたときは可読状態なのですが、テキストを選んでコピー → テキストエディタにペーストすると文字化けしてしまうのです。IllustratorでPDFを直接開く等いろいろ試してみたのですがどれも文字化けしてしまいお手上げ状態です。PDFにセキュリティは設定されておらず、テキストは制限なくコピーできるはずです。全てが文字化けするわけではありません。Acrobatのプロパティ → フォントで確認すると文字化けするのはHGMaruGothicMPRO（埋め込みサブセット）など種類：TureTypeエンコーディング：ビルトイン文字化けしないのはKozGoPro-Regular（埋め込みサブセット）など種類：Type 1（CID）エンコーディング：Identity-Hとなっています。このエンコーディングが「ビルトイン」がアヤシイと思いググってみたところ「ビルトイン」で同じように悩んでいる方がいらっしゃるようなのですが、「そういうPDFは文字化けするから注意しよう」とか「画像に変換してOCR認識させてしまおう」などの記事がヒットし、直接の解決方法を見つけることができませんでした。元データはIllustratorで作っているらしいのですが、諸般の事情で支給できないと言われてしまいました。何か良い方法をご存じの方、ご教示ください。または、解決方法なんて存在しないから諦めろというトドメでも結構です。【PDFのプロパティ】【当方の環境】Mac OS 10.6.8Acrobat X Pro（10.1.14）Illustrator CS3〜CS6Jedit X 1.47テキストエディット 1.6（264）プレビュー 5.0.3（504.1）FireFox（38.0.5）Safari 5.1.10（6534.59.10）【試して失敗した方法】Acrobatで開いてテキストを選択しコピー、Jeditにペースト。（Jeditのエンコーディングは日本語（Mac OS））OS付属のテキストエディットにペースト。プレビューで開いてコピー、Jeditとテキストエディットにペースト。PDFを直接Illustratorで開く。フォントがインストールされていても文字化け。Acrobatの別名保存 → リッチテキスト形式で保存、Jeditで開く。開くときにエンコーディングを自動判定にせず日本語以外（全く関係なさそうな外国語）にも切り替えてみましたが全滅。Acrobatの別名保存 → テキスト（アクセシブル） → Jeditで開く。（エンコーディングは自動判定／日本語（Mac OS））Acrobatの別名保存 → テキスト（プレーン） → Jeditで開く。内容が空っぽでした。Acrobatの別名保存 → EPS → Illustrator CS5.1で開く。文字化けしてない！と喜んだのもつかの間、全てアウトライン化されていました…。Acrobatの別名保存 → HTML → FireFoxとSafariで開く。開いた後、文字エンコーディングを切り替えてみましたが、どれも文字化け状態。メッセージ編集者: rrm
2015/06/15 19:11画像を変更しました

assause · Accepted Answer

エンコーディングに問題があるために正常に文字列として抽出できない状態です。PDF変換をOS XのQuartz経由で行っているのが原因でしょう。既にそのおつもりのようですが、あれこれ処理することを試行錯誤するよりも、紙原稿とみなして文字入力したほうが早い状態だと思います。追記します。案だけなのでうまくいくかわかりませんが、一旦AcrobatからPostScriptファイルに書き出して、DIstillerで変換してみてはどうでしょうか。

Sign up

To post, reply, or follow discussions, please sign in with your Adobe ID.

Sign in to Adobe Community

To post, reply, or follow discussions, please sign in with your Adobe ID.

Scanning file for viruses.

This file cannot be downloaded