Skip to main content
5153 Posts
PDFのテキストを取り出したいのですが文字化けします

PDFのテキストを取り出したいのですが文字化けしますクライアントから原稿として支給されたPDFからテキストを取り出したいのですが文字化けしてしまいます。Acrobatで開いたときは可読状態なのですが、テキストを選んでコピー → テキストエディタにペーストすると文字化けしてしまうのです。IllustratorでPDFを直接開く等いろいろ試してみたのですがどれも文字化けしてしまいお手上げ状態です。PDFにセキュリティは設定されておらず、テキストは制限なくコピーできるはずです。全てが文字化けするわけではありません。Acrobatのプロパティ → フォントで確認すると文字化けするのはHGMaruGothicMPRO(埋め込みサブセット)など種類:TureTypeエンコーディング:ビルトイン文字化けしないのはKozGoPro-Regular(埋め込みサブセット)など種類:Type 1(CID)エンコーディング:Identity-Hとなっています。このエンコーディングが「ビルトイン」がアヤシイと思いググってみたところ「ビルトイン」で同じように悩んでいる方がいらっしゃるようなのですが、「そういうPDFは文字化けするから注意しよう」とか「画像に変換してOCR認識させてしまおう」などの記事がヒットし、直接の解決方法を見つけることができませんでした。元データはIllustratorで作っているらしいのですが、諸般の事情で支給できないと言われてしまいました。何か良い方法をご存じの方、ご教示ください。または、解決方法なんて存在しないから諦めろというトドメでも結構です。【PDFのプロパティ】【当方の環境】Mac OS 10.6.8Acrobat X Pro(10.1.14)Illustrator CS3〜CS6Jedit X 1.47テキストエディット 1.6(264)プレビュー 5.0.3(504.1)FireFox(38.0.5)Safari 5.1.10(6534.59.10)【試して失敗した方法】Acrobatで開いてテキストを選択しコピー、Jeditにペースト。(Jeditのエンコーディングは日本語(Mac OS))OS付属のテキストエディットにペースト。プレビューで開いてコピー、Jeditとテキストエディットにペースト。PDFを直接Illustratorで開く。フォントがインスト

特定のWordファイル「~.doc」

利用ソフト:Adobe Acrobat Pro DC バージョン:2015.006.30306使用環境:【OS】Windows 10Pro(64bit)【CPU】Intel Corei5-6500【メモリ】8.00GB問題:以下の操作でファイルのPDF化を実施すると、特定のファイルで変換中のままステータスが進まなくなる。(アプリケーションのフリーズではないが、一晩)①複数のWord(.doc)ファイルを選択し、右クリックメニュー内の「ファイルをAcrobatで結合...」を選択②オプションボタンを押下して以下の設定をする。- ファイルサイズ:「大」- ファイル形式:「単一のPDF」- その他のオプション:- 「アクセシビリティと折り返しを有効化」:チェック無- 「PDFファイルにしおりを追加」:チェック有- 「エラーが発生しても結合を続行」:チェック有- 「サムネール表示でページ番号を表示」:チェック無- 「ポートフォリオを作成するときに~」:チェック有③「ファイルを結合」ボタンを押下する。尚、問題の発生する特定のファイルの傾向は以下の通りです。①ファイル形式は、MicroSoft Office Wordで作成された.docファイル②容量は500KB~700KB程度③ほぼすべてのページに表データを含む④ページ数は5~45頁で、傾向無し⑤「ファイルをAcrobatで結合...」以外のPDF変換方法では、正常にPDF変換可能