リンクをクリップボードにコピー
コピー完了
テキストにフォント ヒラギノ角ゴシック(https://www.screen-hiragino.jp/lineup/hirg/)を使用しているイラスト、ドキュメントで
・イラスト
Acrobat DistillerでPDFに変換
・ドキュメント
PostScriptファイルを作成し、Acrobat DistillerでPDFに変換
するとPDFの画面の表示では文字が正しく文表示されていますが、
メモ帳などにコピー&ペーストすると「□□□」となり、正しくコピーできない現象がありました。
以前にも似た質問がありましたしたが(https://community.adobe.com/t5/acrobat%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A9%E3%83%A0-discussions/acro...、
こちらで知りたいのは、
1.TrueTypeのフォントで文字情報がなくなるのは仕様でしょうか?またはバグでしょうか?
2.バグの場合、いつ頃にバグが修正されるのでしょうか?
3.仕様ならばヒラギノ角ゴシック以外で文字情報がなくなる、なくならないフォントの一覧を知りたいです。
4.OpeTypeは文字情報はなくなることはないのでしょうか?
情報に不足がありましたらお知らせいただけると助かります。
また、どなたかご存知でしたらご回答頂ければ幸いです。
リンクをクリップボードにコピー
コピー完了
詳しいところはわかりかねますが、示していただいたスレッドでも上がっているように、PDFの再変換に関する仕様として、下記ヘルプページがあります。
https://helpx.adobe.com/jp/acrobat/kb/cq10240010.html
ですので、バグではないだろうと考えられます。
どのフォントだと起きる・起きないではなく、そもそもそのような利用を想定していないので、それを明確にはできないでしょう。
個人的な意見ですが、PDF上で正しく表示されているのであれば、PDFの役目はそこで終わりで、そこにあるテキストをコピーしたいが正しくコピーできないという話は、文字化けでもなんでもなく、そういう仕様かと思います。
どうしてもその作業に必要性があってやられているのでしょうが、PDF本来の性質・役割から逸脱したやり方かなと思いますので、画像にしてOCR認識する、対話型AIプラットフォームに投げて文字起こししてもらう、といった、PDFだのコピペだのにこだわらないところで解決する選択肢も検討していただいたほうがいいかもしれません。
リンクをクリップボードにコピー
コピー完了
Uske_Sさん
ご返答、ありがとうございます。
自分もバグではないと思っていますが。。。
このような問い合わせとなったのは過去に作成したPDFファイルの中でPDFの機能で「読み上げ」が正しくできないファイルがあったので、質問で挙げた項目を知りたくなった方がいたのでこちらに問い合わせた経緯があります。
リンクをクリップボードにコピー
コピー完了
『見た目の文字の形通りの文字で検索できないPDF』
『見た目の文字の形通りの文字でコピーできないPDF』
ですね
『使われているフォント』『作ったアプリケーション』『その時の設定』に依存するので
元になっているPSファイル見てみないと確実な事は言えないですが
原因は
CIDやGID等フォントについて基本知識のある方のようなので
こちらを読んだらわかるとお思います
https://blog.antenna.co.jp/PDFTool/archives/2006/05/tounicode_cmap.html
作り方(psを作成するアプリケーション)を変える事で回避出来る事が多いですよ♪
OS情報がないですが
ヒラギノ言っているのでmacOSですよね(Windows版もあるけれども)
macOS標準で搭載されているTTC形式のヒラギノフォントには
フォントファミリー名を正しくOSが認識できないバグ?
(たぶんAppleとScreenの仕様に対しての見解の相違なんだけど)
が
ありますので
macOS12以降で不具合が出ている場合、利用を避けた方が
検討する項目が減ります
参考まで
--余談
Uske_Sさん>PDF上で正しく表示されているのであれば、PDFの役目はそこで終わりで、
そうなんですよね
PDFって『見た目通りの文字とデザインで印刷』するのを目的で誕生しているから
後から色々つけた機能で混乱している感もありますよね…苦笑
リンクをクリップボードにコピー
コピー完了
IceFloeさん
ご返答、ありがとうございます。
使用するアプリケーションなどの組み合わせで文字情報がバケたりバケなかったりで差が出るのは。。。ですが。
余談でおっしゃってるとうりに今、なっています。。。苦笑
リンクをクリップボードにコピー
コピー完了
技術的な情報が多めなので、もう『お腹いっぱい』かもしれませんが…汗
たぶん
何らかの理由で
PostScriptファイル経由でPDFにする必要があるんですよね?たぶん
ちょっと前にあったやりとりでLINKすが
ヒラギノが期待値PDFの必須でないなら
フォントを変更してみるのが良いのかも?しれません。
今の手順を変えずに期待値のPDFを生成するには
フォントの変更を検討しても良いかも?しれませんね
参考まで
---
余談
大学や研究機関等で自身が生成したドキュメントをPDFを生成するのに
PostScriptファイルを経由する必要がある環境があるのは
理解しているので
『コレ!』って組み合わせ
フォント アプリ 設定 生成手順が見つかると良いですね
参考まで
リンクをクリップボードにコピー
コピー完了
IceFloeさんへ
ご提案、ありがとうございます。
ご提案いただいたとうり、今回、ご質問させていただいた
PostScript、Acrobat DistillerでPDF変換をおこなう方法が
どうしても必要な場合は文字情報を保持できるフォントへの
変更を検討するところですけどね。。。
リンクをクリップボードにコピー
コピー完了
IceFloeのさんの発言と一部被ってしまうのですが、PostScript生成段階でテキストエンコーディングが影響する場合はありますし、それはアプリケーションのほうに依存する場合があります。
また、どこでフォントを埋め込んでいるのか、は結構影響するところだったりします。
(アプリケーション段階なのか、Distillerでエンベッドするのかは結構影響したりします)
また、フォントがTrueTypeだから、というわけでもなかったりはしますので、OpenTypeでも見た目と裏で持つテキスト情報が不一致になることはありえます。
どのようなアプリケーションで作成・PS出力してるかはあるのですが、結局はその組み合わせを除外したり、出来るだけイレギュラーな方法にならないように、PDFを作ることになってきます。
ただしそれでも使っている文字群等によっては完全な検索・テキスト抽出用には向かない、くらいで考えないといけないところです。
リンクをクリップボードにコピー
コピー完了
質問者さんには申し訳ないm(_ _)m脱線です
assauseさん>フォントがTrueTypeだから、というわけでもなかったりはしますので
そうですね、同感です
全くフォントに原因が無いか?って 『ある』ケースもありますけど
newCIDにType1時代ならアレですが
ここ数年の環境で考えると、私もそう思います。
同じテキストでも
macOSの場合テキストエディタから
印刷画面からPostScript生成する場合
PostScriptファイルに
ユニコード番号とGIDがマップされているか?は
確かに『フォント』に依存があるけど
それは『TrueTypeか?』とは違いますしね
また
『PDFとして書き出す』から生成するPDFは
macOSのQuartzが
Unicode CMapを生成してPDFにするから文字バケしない事が多い
『PDF生成方法』によるところが大きいのが実感かなぁと
脱線でした
失礼しました
リンクをクリップボードにコピー
コピー完了
assauseさん
ご返答、ありがとうございます。
結局はPostScript、Acrobat DistillerでPDF作成した場合は文字情報があるかどうかフォント一つ一つ調べるしかないようですね。
みなさんおっしゃるとうり別の方法でPDFを作ればよいのでしょうが。
リンクをクリップボードにコピー
コピー完了
フォントに起因する部分だとこれですかね。
PS経由でフォントを埋め込む場合PostScript系はCharset内に文字コードが保持されるんですけど、Trutype系にはありません。そのため、文字コードはカスタムエンコーディングの状態で拾われる為に文字化けします。
Illustrator等のアプリケーションからPDF構造を書き出すとフォント定義にUnicodeとカスタムエンコーディングを紐づけるテーブルが付加されるため正しいテキストが抜き出せます。
という事でTrutypeの件に関しては仕様ではないかと思います。
リンクをクリップボードにコピー
コピー完了
Ten Aさんへ
ご返答、ありがとうございます。
フォント別にファイルのプロパティを載せていただきお手数おかけします。
問い合わせたTrueTypeフォントだと文字情報がなくなるようですね。
ただ、TrueTypeフォントでも文字情報がなくならないフォントもあるようで(Arialなど)
上でも書いたようにPostScript、Acrobat DistillerでPDF作成した場合はフォント一つ一つ調べるしかないようですね。