PDFデータのテキスト部分をコピーして、メモ帳貼り付けると、文章が逆転しまう現象
PDFデータのテキスト部分をコピーして、メモ帳に貼り付けて、編集作業をしています。
例えば「こんにちは、よろしくお願いします。」という文章をコピーして、
メモ帳に貼り付けたら、「よろしくお願いします。こんにちは、」となります。
これは何が原因で、どのように解決したらいいか教えていただきたいです。
よろしくお願いします。
PDFデータのテキスト部分をコピーして、メモ帳に貼り付けて、編集作業をしています。
例えば「こんにちは、よろしくお願いします。」という文章をコピーして、
メモ帳に貼り付けたら、「よろしくお願いします。こんにちは、」となります。
これは何が原因で、どのように解決したらいいか教えていただきたいです。
よろしくお願いします。
そのPDFはどのようにして作られた物でしょうか?
データの形式(タテorヨコ組み・文書なのか表なのかなど)はどのような形でしょうか?
ご質問の件はタテ組の文章の場合に起こりやすい現象だと思います。
いずれにせよPDFからのテキスト取り出しはベストエフォート型(やれるだけやってみる)であり、予期せぬエラーが出る場合があります。
ふちのついている文字を二重で取ってしまう。画像認識(OCR)すると「一(漢字のいち)」を「ー(長音付)」と誤認してしまう。などが確認されています。
100%アテにされるのは危険と認識ください。
PDF ファイルからテキストおよび画像を抽出する方法(Acrobat DC)
こういう方法もあります。割と正確にできるみたいですよ。
Already have an account? Login
Enter your E-mail address. We'll send you an e-mail with instructions to reset your password.