Skip to main content
Participant
May 26, 2020
質問

ミャンマー(Myanmar)語のPDFファイルをExcelファイルに変換すると文字化けする

  • May 26, 2020
  • 返信数 1.
  • 2057 ビュー

お世話になります。

ミャンマー(Myanmar)語のPDFファイルをExcelファイルに変換(ツール→書き出し)したところ、すべての文字が文字化けしてしまいます。

対象PDFファイルは正常に表示されますが、プロパティを開いたところプロパティ内の「フォント」タブに何も表示されない状態です。

文字化けさせずに変換する方法はありませんでしょうか?

 

また、ZawgyiかUNICODE由来のフォントが埋め込まれたPDFファイルを取得できたとして、Excelファイルに変換することは可能か併せてご教示頂けますでしょうか?

 

OS:Windows10 Pro 64bit

製品:AdobeAcrobat Pro 2017

このトピックへの返信は締め切られました。

返信数 1

assause
Community Expert
Community Expert
May 26, 2020

OCRも含めて処理をしている、とした場合、もともと対応言語にミャンマー語はないはずです。

(Acrobat DC サブスクリプションにはないので、Acrobat 2017にもないものと考えます)

よってOCR処理は別の環境で行っておかねばなりません。

 

またもともと、別ファイルへの書き出しはベストエフォートであることも注意が必要です。

Argo2作成者
Participant
May 27, 2020

ご回答ありがとうございます。

別ファイルでの書き出しがベストエフォートな件、承知しました。

 

ここで質問する内容ではないかもしれませんが、

事前にOCR処理がされているPDFファイルでも、ミャンマー独自のフォント(Zawgyi)

が使用されていた場合、変換できても文字化けする、という認識で問題ないでしょうか?

 

※OCR処理済みのPDFファイルかつUNICODE系フォント(Pyidaungsu)を使用しているものであれば

Acrobatで正常にExcelに変換できることは検証して確認しました

※PyidaungsuフォントはPCに追加

assause
Community Expert
Community Expert
May 27, 2020

OCRされたテキストを、表示とは別に持っている場合、その結果が正しいとは言えませんから、その場合は見た目と中身が異なるため、意図しない結果になります。

(画像としての見た目はそのままで、裏でOCRされたテキストを持つためです)