Skip to main content
Participant
August 26, 2024
Question

濁点と半濁点が分離し、時には文字化けすることがあります。

  • August 26, 2024
  • 1 reply
  • 158 views

PDFからコピーしたテキストをExcelなどに貼り付け、その後エクスポートしてデータ(CSVなど)として扱う場合、濁点と半濁点が分離し、時には文字化けすることがあります。

 

元のPDFがMac版のAdobe製品で作成されていると、「UTF-8-Mac」の文字コードが使われてしまうことが原因ではないか?と思っています。

UTF-8-Mac」では、濁点・半濁点文字、例えば「プ」を「フ」と「゜」、「ブ」を「フ」と「゛」の二文字を合成して表現するようですが、制作物に「UTF-8-Mac」を使用しない方法はありますか?

This topic has been closed for replies.

1 reply

ajabon grinsmith
Community Expert
Community Expert
August 26, 2024

ご質問のスレッドをThe Japan Loungeフォーラムに移動させていただきました。

 

お困りの現象については「Unicode  正規化」でweb検索してみてください。

nmarch05Author
Participant
August 27, 2024

ajabon grinsmith様

回答有り難うございます。

「Unicode  正規化」にてWEB検索し、どういったものかがわかりました。

また、(プログラムを書けない私にはハードルが高いですが)修正方法も掲載されているページも見つけました。

 

ただ、質問している「制作物に「UTF-8-Mac」を使用しない方法はありますか?」の解答方法を検索することはできませんでした。

そもそも、Mac版Adobe製品(IllustratorやInDesignなど)では、UTF-8-Mac」を使用しない方法はないということなのでしょうか?

ajabon grinsmith
Community Expert
Community Expert
August 27, 2024

あーっと失礼しました。

まず示したかったのは、起因はmacOSでありアドビ製品ではありません。

そのため特有のアプリケーションのフォーラムから雑談OKのこちらへ移動させていただいた次第です。

Apple macOSの文字コード「UTF-8-Mac (NFD)」に起因する濁音・半濁音の非常に厄介な問題。

 

自分の手元でこれに悩まされたことがほぼないため、あらためて探してみました。

Rubyでファイル(PDF)を読み込んで変換している猛者がいらっしゃいますね…

MacOS の UTF に振り回された話 - Meijo-u - 名城大学

 

nmarch05さんの環境はWindowsだということですね?

macOSで作成したPDFを受け取り、

以下Windows上の作業で

・AcrobatでPDFを開きテキストをドラッグ&コピーした(それとも別のアプリ?)

・Excelにペーストしてcsvをエクスポートした

でしょうか?