Skip to main content
Participant
March 12, 2023
質問

編集モードでは認識される文字列が検索やコピーの対象とならない

  • March 12, 2023
  • 返信数 1.
  • 1544 ビュー

例えとして以下のページからダウンロードできるPDFを扱う。

http://www.jga.or.jp/jga/html/rules/rules.html

 

ファイルは「2023ゴルフ規則」にリンクされている

http://www.jga.or.jp/jga/html/rules/image/Rules_2023.pdf

こちらとする。

 

PDFの18ページ目(ノンブルは11)を例にとる。

 

「PDFを編集」を選択した状態で最初の見出しと文節をハイライトしコピペしてみた結果がこちらの画像。

問題なくコピペできている。

しかし同ページからコピーした文字列で検索をかけるとヒットしない。

コピペしたテキストエディター上ではヒットすることが次の画像からも確認できると思う。

こちらが検証結果の画像。

次に編集モードを終了してコピペしてみる。

文字化けが確認され、先ほどとは異なり改行まで挿入されてしまっている。

なお、成り行き改行は表面的なもののため、手入力で成り行き改行を含む正常に認識されている文字列を検索すると正常に検索される。

検索の際の注意点としては、テキストエディター等から改行を伴う文字列をコピーしてきて検索ボックスに貼り付けると色々詰むのでしないように。

 

バグと思われますが、みなさんの環境ではどうでしょう?

可能であれば検査やコピーが簡単にできるようにしたいのですが、方法はありますでしょうか?

IllustratorでPDFとして保存しなおすと成り行き改行がすべて改行となり、検索ができなくなってしまいます。

このトピックへの返信は締め切られました。

返信数 1

Quick Timer
Inspiring
March 12, 2023

全てのコード確認したわけではないで、Acrobatのバグの可能性は潰していませんが。

この件は多分こちらの問題です。

ちょっと難解かもしれませんが納得いただけるか?と思いますよ♪

読んでみてください。
https://www.slideshare.net/trueroad_jp/pdfcidgid

参考まで

 

whycant2作成者
Participant
March 12, 2023

詳細を記しているので「多分」での回答は控えてもらえると助かります。

現行OSで普通にmakeできないものを提示されても困ります。

Quick Timer
Inspiring
March 12, 2023

あらあら、せっかく時間を割いて調べたのに
ツレないコメントだこと…汗
分かってもらえなかったかな?
まぁ…ちょっと…文字化けしてしまう仕組みは難解ですよね

また、検索できてない…わけではなく

見た目の文字通りには検索できない

字形は紐づいているから、字としては正しく表示されているが

文字とは紐づいてないから、文字として検索できない。って意味不明ですよね…苦笑


本件は
PDF文書の問題
対象のPDFの作成者のフォントの埋め込みの問題なので

Acrobatの問題(バグ)ではありません(断言しちゃう)

 


治したい場合
確実なのは、PDFを作った人に治してもらうのが確実です。

自分で治したい場合は
先のリンクにあったように、力技で
埋め込みCMapとかを置き換えるになると思います。
簡易な方法としては

画像化してOCRするってのもあります

文字をアウトライン化したPDFを下絵にして
イラストレーター等で同じ内容になるように
コンテンツを再作成する方法もあるにはあるけど…汗

どちらにしても、『PDF文書』の問題で
アプリとかの問題ではありません♪
どちらも現行のOSで対応可能ですよ。
(まぁ時間と労力はそれなりにかかりますけどね)

 

おまけで
もしも、本件のPDFの直しが来たとしたら
まず、対象の文書に不要なフォントは一旦Fontsフォルダから外します

対象の文書に不要なAdobeFontsとかも一旦ディアクティベートします
デバイスを電源OFF->ONさせてから
AdobeのキャッシュファイルやAdobeFntXX.lstファイルを削除-再生成します。
その上で

プリフライトの結果的には

Osaka
Helvetica
MinionなんだけどFontReporterの結果みると

GothicMB101Pro-Regularがサブセット化がナニな感じなので

GothicMB101Proは全ウェイト一旦デバイスから削除して再インストール
KozMinPr6N-Regular

KozMinPro-Regular か KozMinPr6-Regularに
RolexFont-Lightはsymbolなのでアウトライン化しておく
AdobeSongStd-LightはGB1なのでアウトライン化するか別のフォントにする
OsakaはIdentity-0になるのでアウトライン化するか別のフォントにする
オープタイプではないと思われる
Berling-RegItaとHelveticaは可能ならオープタイプフォントに変更で
PDF化します。
環境にもよりますが、ここまでやれば『多分』大丈夫でしょう。
(フォントの状態は作成者の環境次第ですので、これに絶対はないですよ)

 

 

参考まで

本件

あとは、エキスパートなみなさんに任せますわぁ(他力本願)