リンクをクリップボードにコピー
コピー完了
はじめて投稿します。よろしくお願いします。
PDFファイル(他社が作成したファイル)の本文の一部をコピーして、
メモ帳やWord文章に貼り付けると、□□□□□□に文字化けします。
確認した事項は下記です。
・同じPDFファイルの別のページの本文の一部をコピーして、メモ帳に貼り付けたところ、正常に貼り付いた。
・[編集-簡易検索]で文字を検索したところ、□□□に文字化けするものは、検索結果に引っかからなかった。
原因、及び対処策についてご教授いただけないでしょうか。
Adobeにチャットで尋ねましたが、解決しませんでした。。。
よろしくお願いいたします。
リンクをクリップボードにコピー
コピー完了
PDFの場合、表側に見える「文字列的な字形の見た目」と「裏で持っているテキストの文字コード」が必ずしも一致するわけではありません。
アウトライン化された図形やビットマップ化された画像であればもちろんテキスト自体を持ちませんが、生成された元アプリケーションや生成方法次第では、まったくことなるエンコード処理を行うことは往々にしてあります。
この場合はPDFそのものでは解決することはできず、作成元に確認し、テキストが生きるようなPDFの生成を依頼するしかありません。
ただし元アプリケーションと生成方法次第でしかないので、その仕組み次第では生成できない可能性も十分にありえます。
なお、PDFはPDFファイル自体で単体完結しているものでもあるので、テキストの抽出は確実性があるものではないことを踏まえた運用が必要、ともいえます。
リンクをクリップボードにコピー
コピー完了
早々にご返信いただき、ありがとうございます。
テキストの注釈は確実性があるものではない、ということですね。。。
内容について理解することができました。
>この場合はPDFそのものでは解決することはできず、作成元に確認し、テキストが生きるようなPDFの生成を依頼するしかありません。
上記について、もしご存じであれば、ご教授いただきたいのですが、
テキストが生きるようなPDFの生成というのは、具体的にどのように依頼すればよいものなのでしょうか。
お忙しいところ、恐れ入りますが、よろしくお願いいたします。
リンクをクリップボードにコピー
コピー完了
今回の場合は「どのページでも、PDFビューワーで文字列を選択し、コピーしたうえでメモ帳などにペーストした時に、PDFの見た目どおりの文字がペーストされるPDFの作成」という依頼になってきます。
ただし先述の通り「元アプリケーションと生成方法」でもあり、すでに抽出できないような状態で作られている場合はこの限りではありません。
(あと異体字については駄目なこともあります)
このあたりは作成依頼時点ですべての条件を出しておき、そのうえで可否も含めて協議をしないと難しいところになってきます。
リンクをクリップボードにコピー
コピー完了
返信が遅くなり申し訳ありません。
内容について、承知しました。
またわからないことがありましたら、その際はよろしくお願いいたします。