Skip to main content
Participating Frequently
February 2, 2021
Question

PDFからWORDへ変換すると誤認識多発

  • February 2, 2021
  • 4 replies
  • 7327 views

本日時点で最新のacrobat dcでpdfをWORD化しましたが、文字の誤認識が多くて、使い物になりません。

電話サポートでリモートで操作してもらいましたが、結果は同じでNGでした。

この機能について、万能であるような広告を出して良いのでしょうか?

 

This topic has been closed for replies.

4 replies

Ten A
Community Expert
Community Expert
February 5, 2021

いやがるわけではありません。単純な構造のファイルであればそれも良いでしょう。しかし、Acrobatの編集機能は元のアプリケーションを取り扱うようにスムーズには編集を行えません。これは先にも言ったような理由で、PDFの文書構造自体が必ずしも編集に適した構造になっていない事に起因する問題です。編集の難易度に関してはどの様に生成されたPDFであるかというPDF自体の素性に大きく左右されます。
また、PDFのファイル構造自体もランダムアクセスが可能な構造になっているためフラグメンテーションの大きな状態である可能性があり、同一ページの前後の段落に見えても文書上のデータ位置としては全く異なる位置関係にある可能性もあります。こういった状態のものを編集しようとすると、例えば、改行すると次の行に移らずに全く別の位置に送られるということも起こり得るのです。こういった特性があるため編集作業というのは手間のかかる作業になりがちで、できれば避けたほうが無難だと言ってしまっても良いかと思います。

剛5C81Author
Participating Frequently
February 5, 2021

丁寧な解説ありがとうございます。承知しました。テキストボックスの編集はやめて注釈に切り替えたいと思います。

Ten A
Community Expert
Community Expert
February 5, 2021

方法論がまちがっているのではないですか? ノートに書き込む代わりにPDFに書き込みたいのであれば注釈機能が該当する機能です。
元来PDFというのはオリジナルのデータが何某かのアプリケーションデータとして存在し、そのアプリケーションを使わなくても閲覧できるというものです。PDFへの変換を機能としてもつアプリケーションは数多くあります。それらのアプリケーション全てが真っ当なデータ構造を持つPDFを書き出せるわけではありません。そういった構造上の問題がPDFから他のフォーマットへの変換や内包する画像のOCR性能に大きく影響します。特に特殊なフォントを使用しているドキュメント等ではエンコーディング自体がカスタム化されているために変換の際に必ず文字化けを生じます。こういった事に全て対応することは世の中に流れているPDFを吐き出すことの出来るアプリケーション全てについて対応する必要があるでしょうから事実上不可能といえます。だからこういった変換機能はベストエフォートサービスとして提供されているのです。たしかに使えないシチュエーションでは全く役に立ちません。こういったベストエフォートサービスについてはユーザーサイドにおいても使える/使えないの見極めは必要です。

剛5C81Author
Participating Frequently
February 5, 2021

WORD化、テキスト化に着いては使えないことが分かりましたので、使いません。でもAdobeからの広告を見ると、完全なWORD化ができると書いてますよ。ベストエフォートとは書かれてません。

 

PDFの注釈を使うでも良いですが、なぜテキストボックスの編集を嫌がるのか、理由が分かりません。なぜダメと仰るのでしょうか? タダではない製品に機能があるのに、なぜ使ってはいけないのですか?

katayanagi51
Community Expert
Community Expert
February 5, 2021

広告ページを見ると,「完全なWORD化」ができそうに思えるのですけど,実は完全・完璧なコンバートができるとは書いてないのですよねぇ。逆に,ベストエフォート型とも,「(個人の感想です)」みないな文言も書かれていないので「完全なWORD化」を期待して契約・購入した人の腹立ちはとてもよくわかります。プロモーションに問題ありますよねぇ。

 

【アドビ公式】PDFをWordに変換する方法 | Adobe Acrobat DC 

 

最初にTen Aさんが書かれているとおりで,「うまくハマればそれなりに利用できる」レベルの機能だとあきらめて,我慢して付き合っていくか,いっそ使うのをやめるかでしょうね。

(個人の感想です)

 

assause
Community Expert
Community Expert
February 2, 2021

文字の誤認識をする、ということですと、もともとテキストが含まれていない、ビットマップ画像だけのPDFでしょうか。

その場合はOCR処理をかけるわけですが、処理する画像精度によって大きく左右します。

また含まれる語句にもよって良し悪しは影響するところです。

日本語のOCRは難しいものなので、どのソフトを利用しても100%はあり得ないのが実際です。

 

剛5C81Author
Participating Frequently
February 3, 2021


<meta charset="UTF-8" />

Acrobat DCで編集するとテキストボックスが表示されて、文字編集できます。このテキストボックスが上手くWORD化できません。

編集できるのに、なぜWORD化で文字の誤認識が多いのか、不思議です。

assause
Community Expert
Community Expert
February 3, 2021

開いた状態で別名保存でテキストファイルにした場合はどうでしょうか。

本来はそれと同じ結果が得られるはずです。

Ten A
Community Expert
Community Expert
February 2, 2021

元々ベストエフォートサービスなのですが、PDFの構造に大きく左右される機能です。複雑なものほど変換の状態が悪くなる傾向があり、元になるPDFがどのようなアプリケーションから書き出されたかにも左右されます。これは元のアプリケーションが必ずしもきれいな構造のPDFを書き出せていない事に起因するものです。
また、利用されているフォントやエンコーディングによっては文字化けを回避する事自体不可能な場合もあります。とまあ、ネガティブな事を並べ立てるときりが無いのですが、うまくハマればそれなりに利用できる機能です。
問題はプロモーションにこういった負の側面が一切出てこない所でしょうね。