編集モードでは認識される文字列が検索やコピーの対象とならない

レポート · Mar 12, 2023

例えとして以下のページからダウンロードできるPDFを扱う。

http://www.jga.or.jp/jga/html/rules/rules.html

ファイルは「2023ゴルフ規則」にリンクされている

http://www.jga.or.jp/jga/html/rules/image/Rules_2023.pdf

こちらとする。

PDFの18ページ目（ノンブルは11）を例にとる。

「PDFを編集」を選択した状態で最初の見出しと文節をハイライトしコピペしてみた結果がこちらの画像。

問題なくコピペできている。

しかし同ページからコピーした文字列で検索をかけるとヒットしない。

コピペしたテキストエディター上ではヒットすることが次の画像からも確認できると思う。

こちらが検証結果の画像。

次に編集モードを終了してコピペしてみる。

文字化けが確認され、先ほどとは異なり改行まで挿入されてしまっている。

なお、成り行き改行は表面的なもののため、手入力で成り行き改行を含む正常に認識されている文字列を検索すると正常に検索される。

検索の際の注意点としては、テキストエディター等から改行を伴う文字列をコピーしてきて検索ボックスに貼り付けると色々詰むのでしないように。

バグと思われますが、みなさんの環境ではどうでしょう？

可能であれば検査やコピーが簡単にできるようにしたいのですが、方法はありますでしょうか？

IllustratorでPDFとして保存しなおすと成り行き改行がすべて改行となり、検索ができなくなってしまいます。

レポート · Mar 12, 2023

全てのコード確認したわけではないで、Acrobatのバグの可能性は潰していませんが。

この件は多分こちらの問題です。

ちょっと難解かもしれませんが納得いただけるか？と思いますよ♪

読んでみてください。
https://www.slideshare.net/trueroad_jp/pdfcidgid

参考まで

レポート · Mar 12, 2023

自己レス
確認しました、このPDFについては

『PDF文書』の問題で、Acrobatの問題では無いようです。
（しいて言うとPDF作った環境の問題かな）

例：『ゴルフ規則書の使い方』の『書』部分です。

対象のフォント情報を確認すると

拡大すると

文字コードが抜けて　missingとなっています

他のちゃんとコピーできる文字はこのように

文字コードが紐づいています。

上記のことから

Acrobatのバグではなく

PDF文書（作成した時の環境）の問題ですね。

文字コードが紐づいていないので、見た目の文字の通りには検索できないので

検索結果もアレだったって事になりますね。

参考まで
（人のフリ見てですね…　気をつけよう♪っと）

レポート · Mar 12, 2023

詳細を記しているので「多分」での回答は控えてもらえると助かります。

現行OSで普通にmakeできないものを提示されても困ります。

レポート · Mar 12, 2023

あらあら、せっかく時間を割いて調べたのに
ツレないコメントだこと…汗
分かってもらえなかったかな？
まぁ…ちょっと…文字化けしてしまう仕組みは難解ですよね

また、検索できてない…わけではなく

見た目の文字通りには検索できない

字形は紐づいているから、字としては正しく表示されているが

文字とは紐づいてないから、文字として検索できない。って意味不明ですよね…苦笑

本件は
PDF文書の問題
対象のPDFの作成者のフォントの埋め込みの問題なので

Acrobatの問題（バグ）ではありません（断言しちゃう）

治したい場合
確実なのは、PDFを作った人に治してもらうのが確実です。

自分で治したい場合は
先のリンクにあったように、力技で
埋め込みCMapとかを置き換えるになると思います。
簡易な方法としては

画像化してOCRするってのもあります
し
文字をアウトライン化したPDFを下絵にして
イラストレーター等で同じ内容になるように
コンテンツを再作成する方法もあるにはあるけど…汗

どちらにしても、『PDF文書』の問題で
アプリとかの問題ではありません♪
どちらも現行のOSで対応可能ですよ。
（まぁ時間と労力はそれなりにかかりますけどね）

おまけで
もしも、本件のPDFの直しが来たとしたら
まず、対象の文書に不要なフォントは一旦Fontsフォルダから外します

対象の文書に不要なAdobeFontsとかも一旦ディアクティベートします
デバイスを電源OFF->ONさせてから
AdobeのキャッシュファイルやAdobeFntXX.lstファイルを削除-再生成します。
その上で

プリフライトの結果的には

Osaka
Helvetica
MinionなんだけどFontReporterの結果みると

GothicMB101Pro-Regularがサブセット化がナニな感じなので

GothicMB101Proは全ウェイト一旦デバイスから削除して再インストール
KozMinPr6N-Regular
を
KozMinPro-Regular か KozMinPr6-Regularに
RolexFont-Lightはsymbolなのでアウトライン化しておく
AdobeSongStd-LightはGB1なのでアウトライン化するか別のフォントにする
OsakaはIdentity-0になるのでアウトライン化するか別のフォントにする
オープタイプではないと思われる
Berling-RegItaとHelveticaは可能ならオープタイプフォントに変更で
PDF化します。
環境にもよりますが、ここまでやれば『多分』大丈夫でしょう。
（フォントの状態は作成者の環境次第ですので、これに絶対はないですよ）

参考まで

本件

あとは、エキスパートなみなさんに任せますわぁ（他力本願）

レポート · Mar 12, 2023

色々とご意見ありがとうございます。

"自己レス" を読み込む前に返信してしまいました。

バグは検索機能のことだったのですが、一時的な問題だったのかもしれません。再起動したら解消していました。

問題の内容や正しい修正方法ではなく解決方法があれば知りたかったということで、つれなくてごめんなさい。orz

で、結論からいいますと編集可能なPDFでは目先の問題を解決できました。

本当はこのような方法では解決したと言ってはいけないんでしょうけどね。

方法はMacの「プレビュー.app」で開いて一つページを削除して保存すると解決します。

全てのページを残したい場合は一度どこかのページを複製して保存してからダブったページを削除すれば良いでしょう。

Adobe社の言い分としてはPDFの仕様に沿っていないからできるわけないよね？的な感じなのかもしれませんが、Acrobatの閲覧モードでは形状のみの何かだった "モノ" が編集モードでは特定の文字として認識されているので文字コードが埋め込まれていなくてもAdobe-Japan1-4を参照すればわかることだし、実装も可能なことはAdobe自身が証明してくれている気がするんですけどね。

しかし閲覧モードでは部分的に文字コードが欠落している場合は文字として認識しようとしてくれず文字化けに多くの人が悩まされているわけで。。これは「プレビュー.app」でも同じことが言えるかも。。

「プレビュー.app」は保存しなおすとUnicodeの文字コード情報が綺麗さっぱり抜けてなくなるけどAdobe-Japan1-4だから参照すればわかるよね？対応する文字コードとか要らなくない？という潔さ（なのだろうか・・・）のおかげで成り行き改行を損なうことなく全て文字として視認でき検索もできるようになったということなのでしょうかね。

そのおかげでファイルサイズも小さくなりました。

qpdfやらPDFlibやらでMacの容量が減ってしまった分を取り返せて清々しい気分です。

以前某A社の某[Pr]で書き出したmp4がQuickTimeで音ズレするときに検証用にQTで尺を伸ばして保存したら直ったという経験がなければ思いつかない方法だったと思います。

Adobe Community

編集モードでは認識される文字列が検索やコピーの対象とならない