終了

PostScript、Acrobat DistillerでPDF変換するとテキスト情報が文字化けする。

Community Beginner ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

テキストにフォント ヒラギノ角ゴシック(https://www.screen-hiragino.jp/lineup/hirg/)を使用しているイラスト、ドキュメントで

・イラスト
Acrobat DistillerでPDFに変換

・ドキュメント
PostScriptファイルを作成し、Acrobat DistillerでPDFに変換

するとPDFの画面の表示では文字が正しく文表示されていますが、

メモ帳などにコピー&ペーストすると「□□□」となり、正しくコピーできない現象がありました。

以前にも似た質問がありましたしたが(https://community.adobe.com/t5/acrobat%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A9%E3%83%A0-discussions/acro...

こちらで知りたいのは、


1.TrueTypeのフォントで文字情報がなくなるのは仕様でしょうか?またはバグでしょうか?
2.バグの場合、いつ頃にバグが修正されるのでしょうか?
3.仕様ならばヒラギノ角ゴシック以外で文字情報がなくなる、なくならないフォントの一覧を知りたいです。
4.OpeTypeは文字情報はなくなることはないのでしょうか?

情報に不足がありましたらお知らせいただけると助かります。

また、どなたかご存知でしたらご回答頂ければ幸いです。

キーワード
PDF の編集と変換

表示

597

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

詳しいところはわかりかねますが、示していただいたスレッドでも上がっているように、PDFの再変換に関する仕様として、下記ヘルプページがあります。

https://helpx.adobe.com/jp/acrobat/kb/cq10240010.html

ですので、バグではないだろうと考えられます。

どのフォントだと起きる・起きないではなく、そもそもそのような利用を想定していないので、それを明確にはできないでしょう。

 

個人的な意見ですが、PDF上で正しく表示されているのであれば、PDFの役目はそこで終わりで、そこにあるテキストをコピーしたいが正しくコピーできないという話は、文字化けでもなんでもなく、そういう仕様かと思います。

どうしてもその作業に必要性があってやられているのでしょうが、PDF本来の性質・役割から逸脱したやり方かなと思いますので、画像にしてOCR認識する、対話型AIプラットフォームに投げて文字起こししてもらう、といった、PDFだのコピペだのにこだわらないところで解決する選択肢も検討していただいたほうがいいかもしれません。


Uske_S

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

Uske_Sさん

 

ご返答、ありがとうございます。

 

自分もバグではないと思っていますが。。。

 

このような問い合わせとなったのは過去に作成したPDFファイルの中でPDFの機能で「読み上げ」が正しくできないファイルがあったので、質問で挙げた項目を知りたくなった方がいたのでこちらに問い合わせた経緯があります。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
ファン ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

『見た目の文字の形通りの文字で検索できないPDF』
『見た目の文字の形通りの文字でコピーできないPDF』
ですね

『使われているフォント』『作ったアプリケーション』『その時の設定』に依存するので
元になっているPSファイル見てみないと確実な事は言えないですが
原因は
CIDやGID等フォントについて基本知識のある方のようなので
こちらを読んだらわかるとお思います
https://blog.antenna.co.jp/PDFTool/archives/2006/05/tounicode_cmap.html

 

作り方(psを作成するアプリケーション)を変える事で回避出来る事が多いですよ♪

 

OS情報がないですが
ヒラギノ言っているのでmacOSですよね(Windows版もあるけれども)
macOS標準で搭載されているTTC形式のヒラギノフォントには
フォントファミリー名を正しくOSが認識できないバグ?
(たぶんAppleとScreenの仕様に対しての見解の相違なんだけど)

ありますので

macOS12以降で不具合が出ている場合、利用を避けた方が
検討する項目が減ります
参考まで

 

 

--余談
Uske_SさんPDF上で正しく表示されているのであれば、PDFの役目はそこで終わりで、
そうなんですよね
PDFって『見た目通りの文字とデザインで印刷』するのを目的で誕生しているから
後から色々つけた機能で混乱している感もありますよね…苦笑

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

IceFloeさん

 

ご返答、ありがとうございます。


使用するアプリケーションなどの組み合わせで文字情報がバケたりバケなかったりで差が出るのは。。。ですが。


余談でおっしゃってるとうりに今、なっています。。。苦笑

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
ファン ,
Aug 23, 2024 Aug 23, 2024

リンクをクリップボードにコピー

コピー完了

技術的な情報が多めなので、もう『お腹いっぱい』かもしれませんが…汗

たぶん
何らかの理由で
PostScriptファイル経由でPDFにする必要があるんですよね?たぶん
ちょっと前にあったやりとりでLINKすが

ヒラギノが期待値PDFの必須でないなら
フォントを変更してみるのが良いのかも?しれません。

今の手順を変えずに期待値のPDFを生成するには

フォントの変更を検討しても良いかも?しれませんね

参考まで

 

---

余談
大学や研究機関等で自身が生成したドキュメントをPDFを生成するのに
PostScriptファイルを経由する必要がある環境があるのは

理解しているので

『コレ!』って組み合わせ
フォント アプリ 設定 生成手順が見つかると良いですね

参考まで

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 25, 2024 Aug 25, 2024

リンクをクリップボードにコピー

コピー完了

最新

IceFloeさんへ

 

ご提案、ありがとうございます。

 

ご提案いただいたとうり、今回、ご質問させていただいた

PostScript、Acrobat DistillerでPDF変換をおこなう方法が

どうしても必要な場合は文字情報を保持できるフォントへの

変更を検討するところですけどね。。。

 

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

IceFloeのさんの発言と一部被ってしまうのですが、PostScript生成段階でテキストエンコーディングが影響する場合はありますし、それはアプリケーションのほうに依存する場合があります。

また、どこでフォントを埋め込んでいるのか、は結構影響するところだったりします。

(アプリケーション段階なのか、Distillerでエンベッドするのかは結構影響したりします)

 

また、フォントがTrueTypeだから、というわけでもなかったりはしますので、OpenTypeでも見た目と裏で持つテキスト情報が不一致になることはありえます。

 

どのようなアプリケーションで作成・PS出力してるかはあるのですが、結局はその組み合わせを除外したり、出来るだけイレギュラーな方法にならないように、PDFを作ることになってきます。

ただしそれでも使っている文字群等によっては完全な検索・テキスト抽出用には向かない、くらいで考えないといけないところです。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
ファン ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

質問者さんには申し訳ないm(_ _)m脱線です

 

assauseさん>フォントがTrueTypeだから、というわけでもなかったりはしますので


そうですね、同感です

全くフォントに原因が無いか?って 『ある』ケースもありますけど
newCIDにType1時代ならアレですが
ここ数年の環境で考えると、私もそう思います。

 

 

同じテキストでも
macOSの場合テキストエディタから
印刷画面からPostScript生成する場合
PostScriptファイルに
ユニコード番号とGIDがマップされているか?は
確かに『フォント』に依存があるけど
それは『TrueTypeか?』とは違いますしね
また
『PDFとして書き出す』から生成するPDFは
macOSのQuartzが
Unicode CMapを生成してPDFにするから文字バケしない事が多い

 

『PDF生成方法』によるところが大きいのが実感かなぁと

脱線でした
失礼しました

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

assauseさん

 

ご返答、ありがとうございます。

 

結局はPostScript、Acrobat DistillerでPDF作成した場合は文字情報があるかどうかフォント一つ一つ調べるしかないようですね。

 

みなさんおっしゃるとうり別の方法でPDFを作ればよいのでしょうが。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

フォントに起因する部分だとこれですかね。

スクリーンショット 2024-08-23 10.06.17.png
PS経由でフォントを埋め込む場合PostScript系はCharset内に文字コードが保持されるんですけど、Trutype系にはありません。そのため、文字コードはカスタムエンコーディングの状態で拾われる為に文字化けします。
Illustrator等のアプリケーションからPDF構造を書き出すとフォント定義にUnicodeとカスタムエンコーディングを紐づけるテーブルが付加されるため正しいテキストが抜き出せます。

スクリーンショット 2024-08-23 13.09.50.png

 

という事でTrutypeの件に関しては仕様ではないかと思います。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Aug 22, 2024 Aug 22, 2024

リンクをクリップボードにコピー

コピー完了

Ten Aさんへ


ご返答、ありがとうございます。

 

フォント別にファイルのプロパティを載せていただきお手数おかけします。

問い合わせたTrueTypeフォントだと文字情報がなくなるようですね。

 

ただ、TrueTypeフォントでも文字情報がなくならないフォントもあるようで(Arialなど)
上でも書いたようにPostScript、Acrobat DistillerでPDF作成した場合はフォント一つ一つ調べるしかないようですね。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines