濁点と半濁点が分離し、時には文字化けすることがあります。
リンクをクリップボードにコピー
コピー完了
PDFからコピーしたテキストをExcelなどに貼り付け、その後エクスポートしてデータ(CSVなど)として扱う場合、濁点と半濁点が分離し、時には文字化けすることがあります。
元のPDFがMac版のAdobe製品で作成されていると、「UTF-8-Mac」の文字コードが使われてしまうことが原因ではないか?と思っています。
「UTF-8-Mac」では、濁点・半濁点文字、例えば「プ」を「フ」と「゜」、「ブ」を「フ」と「゛」の二文字を合成して表現するようですが、制作物に「UTF-8-Mac」を使用しない方法はありますか?
リンクをクリップボードにコピー
コピー完了
ご質問のスレッドをThe Japan Loungeフォーラムに移動させていただきました。
お困りの現象については「Unicode 正規化」でweb検索してみてください。
リンクをクリップボードにコピー
コピー完了
ajabon grinsmith様
回答有り難うございます。
「Unicode 正規化」にてWEB検索し、どういったものかがわかりました。
また、(プログラムを書けない私にはハードルが高いですが)修正方法も掲載されているページも見つけました。
ただ、質問している「制作物に「UTF-8-Mac」を使用しない方法はありますか?」の解答方法を検索することはできませんでした。
そもそも、Mac版Adobe製品(IllustratorやInDesignなど)では、「UTF-8-Mac」を使用しない方法はないということなのでしょうか?
リンクをクリップボードにコピー
コピー完了
あーっと失礼しました。
まず示したかったのは、起因はmacOSでありアドビ製品ではありません。
そのため特有のアプリケーションのフォーラムから雑談OKのこちらへ移動させていただいた次第です。
Apple macOSの文字コード「UTF-8-Mac (NFD)」に起因する濁音・半濁音の非常に厄介な問題。
自分の手元でこれに悩まされたことがほぼないため、あらためて探してみました。
Rubyでファイル(PDF)を読み込んで変換している猛者がいらっしゃいますね…
MacOS の UTF に振り回された話 - Meijo-u - 名城大学
nmarch05さんの環境はWindowsだということですね?
macOSで作成したPDFを受け取り、
以下Windows上の作業で
・AcrobatでPDFを開きテキストをドラッグ&コピーした(それとも別のアプリ?)
・Excelにペーストしてcsvをエクスポートした
でしょうか?
リンクをクリップボードにコピー
コピー完了
ajabon grinsmith様
丁寧な説明、ありがとうございます!
Adobe製品の問題ではなく、MacOSの問題でしたか。。。
私はMacOSの環境ですが、Windows環境の社員もいます。
困っている状況としては
商品カタログデータ(多分Mac版のIllustratorやInDesignで作成された)から、スペックのテキストをコピーし、商品DB(ブラウザ経由)や商品提案書(Excelなど)に登録しています。
ブラウザの表記とExcel上の表記は問題なく濁点や半濁点を表示しているのですが、これをシステム取り込み用にしようとデータ(csv)として吐き出すと、濁点や半濁点が分離もしくは文字化けしてしまって困っていました。
ちなみに
現在は、csvに落として文字化けしているテキストがあれば、正しく表記されている元のデータ(ブラウザやExcel)をコピーし、テキストエディタに貼り付け「UTF-8」か「SJIS」で保存し直し、元に返しているというアナログな方法で修正しています。
リンクをクリップボードにコピー
コピー完了
どうも文面だけで判断すると、csv書き出しのタイミングでそうなってしまっているようにも受け取れますね。
どこで決定的にまずくなっているかの切り分けが必要かと思います。
Adobe AcrobatもしくはAdobe Reader(無料のやつ)で元のPDFを開いて、プロパティから作成元アプリを参照することができます。
>多分Mac版のIllustratorやInDesignで作成された
をクリアにしましょう。
あとIllustratorはお持ちでしょうか? 元のPDFをIllustratorで直接開くとどうなってますかね。

