Skip to main content
Participating Frequently
August 22, 2024
Question

PostScript、Acrobat DistillerでPDF変換するとテキスト情報が文字化けする。

  • August 22, 2024
  • 4 replies
  • 1265 views

テキストにフォント ヒラギノ角ゴシック(https://www.screen-hiragino.jp/lineup/hirg/)を使用しているイラスト、ドキュメントで

・イラスト
Acrobat DistillerでPDFに変換

・ドキュメント
PostScriptファイルを作成し、Acrobat DistillerでPDFに変換

するとPDFの画面の表示では文字が正しく文表示されていますが、

メモ帳などにコピー&ペーストすると「□□□」となり、正しくコピーできない現象がありました。

以前にも似た質問がありましたしたが(https://community.adobe.com/t5/acrobat%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A9%E3%83%A0-discussions/acrobat-distiller%E3%81%A7pdf%E3%82%92%E5%86%8D%E5%A4%89%E6%8F%9B%E3%81%99%E3%82%8B%E3%81%A8-%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E6%83%85%E5%A0%B1%E3%81%8C%E6%96%87%E5%AD%97%E5%8C%96%E3%81%91%E3%81%99%E3%82%8B/m-p/9688929?profile.language=ja)

こちらで知りたいのは、


1.TrueTypeのフォントで文字情報がなくなるのは仕様でしょうか?またはバグでしょうか?
2.バグの場合、いつ頃にバグが修正されるのでしょうか?
3.仕様ならばヒラギノ角ゴシック以外で文字情報がなくなる、なくならないフォントの一覧を知りたいです。
4.OpeTypeは文字情報はなくなることはないのでしょうか?

情報に不足がありましたらお知らせいただけると助かります。

また、どなたかご存知でしたらご回答頂ければ幸いです。

This topic has been closed for replies.

4 replies

Ten A
Community Expert
Community Expert
August 23, 2024

フォントに起因する部分だとこれですかね。


PS経由でフォントを埋め込む場合PostScript系はCharset内に文字コードが保持されるんですけど、Trutype系にはありません。そのため、文字コードはカスタムエンコーディングの状態で拾われる為に文字化けします。
Illustrator等のアプリケーションからPDF構造を書き出すとフォント定義にUnicodeとカスタムエンコーディングを紐づけるテーブルが付加されるため正しいテキストが抜き出せます。

 

という事でTrutypeの件に関しては仕様ではないかと思います。

Participating Frequently
August 23, 2024

Ten Aさんへ


ご返答、ありがとうございます。

 

フォント別にファイルのプロパティを載せていただきお手数おかけします。

問い合わせたTrueTypeフォントだと文字情報がなくなるようですね。

 

ただ、TrueTypeフォントでも文字情報がなくならないフォントもあるようで(Arialなど)
上でも書いたようにPostScript、Acrobat DistillerでPDF作成した場合はフォント一つ一つ調べるしかないようですね。

assause
Community Expert
Community Expert
August 22, 2024

IceFloeのさんの発言と一部被ってしまうのですが、PostScript生成段階でテキストエンコーディングが影響する場合はありますし、それはアプリケーションのほうに依存する場合があります。

また、どこでフォントを埋め込んでいるのか、は結構影響するところだったりします。

(アプリケーション段階なのか、Distillerでエンベッドするのかは結構影響したりします)

 

また、フォントがTrueTypeだから、というわけでもなかったりはしますので、OpenTypeでも見た目と裏で持つテキスト情報が不一致になることはありえます。

 

どのようなアプリケーションで作成・PS出力してるかはあるのですが、結局はその組み合わせを除外したり、出来るだけイレギュラーな方法にならないように、PDFを作ることになってきます。

ただしそれでも使っている文字群等によっては完全な検索・テキスト抽出用には向かない、くらいで考えないといけないところです。

IceFloe
Participating Frequently
August 23, 2024

質問者さんには申し訳ないm(_ _)m脱線です

 

assauseさん>フォントがTrueTypeだから、というわけでもなかったりはしますので


そうですね、同感です

全くフォントに原因が無いか?って 『ある』ケースもありますけど
newCIDにType1時代ならアレですが
ここ数年の環境で考えると、私もそう思います。

 

 

同じテキストでも
macOSの場合テキストエディタから
印刷画面からPostScript生成する場合
PostScriptファイルに
ユニコード番号とGIDがマップされているか?は
確かに『フォント』に依存があるけど
それは『TrueTypeか?』とは違いますしね
また
『PDFとして書き出す』から生成するPDFは
macOSのQuartzが
Unicode CMapを生成してPDFにするから文字バケしない事が多い

 

『PDF生成方法』によるところが大きいのが実感かなぁと

脱線でした
失礼しました

IceFloe
Participating Frequently
August 22, 2024

『見た目の文字の形通りの文字で検索できないPDF』
『見た目の文字の形通りの文字でコピーできないPDF』
ですね

『使われているフォント』『作ったアプリケーション』『その時の設定』に依存するので
元になっているPSファイル見てみないと確実な事は言えないですが
原因は
CIDやGID等フォントについて基本知識のある方のようなので
こちらを読んだらわかるとお思います
https://blog.antenna.co.jp/PDFTool/archives/2006/05/tounicode_cmap.html

 

作り方(psを作成するアプリケーション)を変える事で回避出来る事が多いですよ♪

 

OS情報がないですが
ヒラギノ言っているのでmacOSですよね(Windows版もあるけれども)
macOS標準で搭載されているTTC形式のヒラギノフォントには
フォントファミリー名を正しくOSが認識できないバグ?
(たぶんAppleとScreenの仕様に対しての見解の相違なんだけど)

ありますので

macOS12以降で不具合が出ている場合、利用を避けた方が
検討する項目が減ります
参考まで

 

 

--余談
Uske_SさんPDF上で正しく表示されているのであれば、PDFの役目はそこで終わりで、
そうなんですよね
PDFって『見た目通りの文字とデザインで印刷』するのを目的で誕生しているから
後から色々つけた機能で混乱している感もありますよね…苦笑

Participating Frequently
August 23, 2024

IceFloeさん

 

ご返答、ありがとうございます。


使用するアプリケーションなどの組み合わせで文字情報がバケたりバケなかったりで差が出るのは。。。ですが。


余談でおっしゃってるとうりに今、なっています。。。苦笑

IceFloe
Participating Frequently
August 23, 2024

技術的な情報が多めなので、もう『お腹いっぱい』かもしれませんが…汗

たぶん
何らかの理由で
PostScriptファイル経由でPDFにする必要があるんですよね?たぶん
ちょっと前にあったやりとりでLINKすが

ヒラギノが期待値PDFの必須でないなら
フォントを変更してみるのが良いのかも?しれません。

今の手順を変えずに期待値のPDFを生成するには

フォントの変更を検討しても良いかも?しれませんね

参考まで

 

---

余談
大学や研究機関等で自身が生成したドキュメントをPDFを生成するのに
PostScriptファイルを経由する必要がある環境があるのは

理解しているので

『コレ!』って組み合わせ
フォント アプリ 設定 生成手順が見つかると良いですね

参考まで

Uske_S
Community Expert
Community Expert
August 22, 2024

詳しいところはわかりかねますが、示していただいたスレッドでも上がっているように、PDFの再変換に関する仕様として、下記ヘルプページがあります。

https://helpx.adobe.com/jp/acrobat/kb/cq10240010.html

ですので、バグではないだろうと考えられます。

どのフォントだと起きる・起きないではなく、そもそもそのような利用を想定していないので、それを明確にはできないでしょう。

 

個人的な意見ですが、PDF上で正しく表示されているのであれば、PDFの役目はそこで終わりで、そこにあるテキストをコピーしたいが正しくコピーできないという話は、文字化けでもなんでもなく、そういう仕様かと思います。

どうしてもその作業に必要性があってやられているのでしょうが、PDF本来の性質・役割から逸脱したやり方かなと思いますので、画像にしてOCR認識する、対話型AIプラットフォームに投げて文字起こししてもらう、といった、PDFだのコピペだのにこだわらないところで解決する選択肢も検討していただいたほうがいいかもしれません。

Uske_S
Participating Frequently
August 23, 2024

Uske_Sさん

 

ご返答、ありがとうございます。

 

自分もバグではないと思っていますが。。。

 

このような問い合わせとなったのは過去に作成したPDFファイルの中でPDFの機能で「読み上げ」が正しくできないファイルがあったので、質問で挙げた項目を知りたくなった方がいたのでこちらに問い合わせた経緯があります。