終了

Acrobat ProでOCR処理をかけた文書をコピペすると文字化けする

New Here ,
Aug 17, 2020 Aug 17, 2020

リンクをクリップボードにコピー

コピー完了

Acrobat Proでテキスト認識→検索可能なPDFに変換をしたのですが、実際にOCR処理をかけた文書の中の文章の一部をコピペしたところ、文字化けが起こってしまいました。このような症状の対処法はありませんか。是非教えていただければ幸いです。

キーワード
PDF の編集と変換 , ドキュメントをスキャンして OCR を実行する

表示

7.8K

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 17, 2020 Aug 17, 2020

リンクをクリップボードにコピー

コピー完了

OCR自体が完全な処理にならないものなので、ある程度は仕方ないところです。

元ファイルの画質にも影響することもありますが、日本語は100%の処理は望めず、これ自体はAcrobatに限らず、どのOCRソフトでも同様です。

あくまでも補助的に利用するものとして考えたほうがいいでしょう。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
New Here ,
Aug 17, 2020 Aug 17, 2020

リンクをクリップボードにコピー

コピー完了

返信していただきありがとうございます。OCRの精度が完璧でないことは重々承知しております。しかし、数字以外のほぼ全ての文字において文字化けが発生してしまっている状態なのです。分かりにくい書き方をしてしまいすいません。数字以外が文字化けするということはよくあることなのでしょうか。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 18, 2020 Aug 18, 2020

リンクをクリップボードにコピー

コピー完了

数字はOCR処理としては通りやすいほうではないでしょうか。

どちらかというと他の文字のほうが難しいと思います。

たとえば、ひらがなの「に」は「l」「こ」で分かれるなどは可能性としてありえるところです。

このあたりは先述の通り、元の画質の影響はでますし、スキャン時の解像度に影響します。

低解像度かつ圧縮率の高いJPEG(ブロックノイズ多めなど)だと精度はかなり落ちると思います。

人の目でそれなりに読めても、OCRでは駄目、ということも、低画質のデータであれば発生する可能性は高いところです。

 

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
New Here ,
Aug 28, 2020 Aug 28, 2020

リンクをクリップボードにコピー

コピー完了

返信していただきありがとうございます。そして、返信が遅れてしまい大変申し訳ございません。解像度なのですが、かなり高い解像度でスキャンしています。他の方が推奨されているスキャン設定を試してみたりしているのですが、やはりうまくいきません。一応「もじばけらった」と呼ばれるサイトで文字化けしたものをペーストしていじってみたところ、かなり高い精度で文字化けが治ります。これも解像度の問題なのでしょうか。何度も質問してしまい申し訳ございません。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 28, 2020 Aug 28, 2020

リンクをクリップボードにコピー

コピー完了

件のサイトは認識されなかった各種エンコーディングを施されたものを正しいエンコーディングで再度文字列を処理し正しく表示させるといった事を行います。これはOCRによる誤認識を正すのとは異なる処理です。
現象を明確にするためにもサンプル画像とOCR結果の見本を提示できませんか?

以下に典型的な誤認識の例を挙げておきます。

スクリーンショット 2020-08-29 9.18.09.pngスクリーンショット 2020-08-29 9.20.29.png

「件のサイトは認森されなかった各碩エンコ ー ディングを庇されたものを正しいエンコー ディングで再度 字列を処理し正しく表 させるといった沼を います。これはOCRによる誤認蕊を正すのとは異なる処理です。
現象を明!岳にするためにもサンブル画倣とOCRl'1i果の 本を捉 できませんか?」

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
New Here ,
Aug 29, 2020 Aug 29, 2020

リンクをクリップボードにコピー

コピー完了

返信していただきありがとうございます。「OCR結果の見本」とは「サンプル画像」をOCR処理した画像という認識で間違っていませんか?

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Aug 29, 2020 Aug 29, 2020

リンクをクリップボードにコピー

コピー完了

上の画像に対してOCR処理したものが下の画像です。

この様に文字コードがどうこうと言うより近い形状の文字を拾うので人が読んで訂正しないとダメです。コード変換サービスなどを利用して処理できるものではありません。

この様にどの様な画像を処理してどの様な結果が出ているのかを確認しないとどの様な問題が生じているのかがわかりません。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
New Here ,
Sep 06, 2020 Sep 06, 2020

リンクをクリップボードにコピー

コピー完了

最新

返信ありがとうございます。サンプル画像を作る際にAcrobatを使ったのですが、何故か正常に使えました。何度も返信いただいたのに本当にすいません。おそらく再起動等を自分が意図せずにしたのが要因で治ったのだとは思いますが、、とにかく返信していただきありがとうございました。

投票

翻訳

翻訳

レポート

レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines