終了

PDFからWORDへ変換すると誤認識多発

Community Beginner ,
Feb 01, 2021 Feb 01, 2021

本日時点で最新のacrobat dcでpdfをWORD化しましたが、文字の誤認識が多くて、使い物になりません。

電話サポートでリモートで操作してもらいましたが、結果は同じでNGでした。

この機能について、万能であるような広告を出して良いのでしょうか?

 

キーワード
PDF の編集と変換
6.9K
翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Feb 01, 2021 Feb 01, 2021

元々ベストエフォートサービスなのですが、PDFの構造に大きく左右される機能です。複雑なものほど変換の状態が悪くなる傾向があり、元になるPDFがどのようなアプリケーションから書き出されたかにも左右されます。これは元のアプリケーションが必ずしもきれいな構造のPDFを書き出せていない事に起因するものです。
また、利用されているフォントやエンコーディングによっては文字化けを回避する事自体不可能な場合もあります。とまあ、ネガティブな事を並べ立てるときりが無いのですが、うまくハマればそれなりに利用できる機能です。
問題はプロモーションにこういった負の側面が一切出てこない所でしょうね。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Feb 02, 2021 Feb 02, 2021

文字の誤認識をする、ということですと、もともとテキストが含まれていない、ビットマップ画像だけのPDFでしょうか。

その場合はOCR処理をかけるわけですが、処理する画像精度によって大きく左右します。

また含まれる語句にもよって良し悪しは影響するところです。

日本語のOCRは難しいものなので、どのソフトを利用しても100%はあり得ないのが実際です。

 

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Feb 02, 2021 Feb 02, 2021


<meta charset="UTF-8" />

Acrobat DCで編集するとテキストボックスが表示されて、文字編集できます。このテキストボックスが上手くWORD化できません。

編集できるのに、なぜWORD化で文字の誤認識が多いのか、不思議です。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Feb 03, 2021 Feb 03, 2021

開いた状態で別名保存でテキストファイルにした場合はどうでしょうか。

本来はそれと同じ結果が得られるはずです。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Feb 03, 2021 Feb 03, 2021

表があったり、テキストボックスが横に並んでいたりしますので、単純にテキスト化できないと思います。

あと、画像があって、その説明もありますので、テキストだけ抽出しても意味がありません。

数ページのPDFならテキスト化して、表や画像を追加してWORD化できると思いますが、300ページあるため、手作業でWORD化するのは、非現実的です。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Feb 04, 2021 Feb 04, 2021

いや、そうではなく、テキストデータが元々生きているPDFであれば、それでテキストファイルが取り出せる、ということです。

取り出せないファイルの場合はテキスト自体が含まれていないということになります。

 

またPDF自体をネイティブで編集形式として用いる文書作成アプリケーションはありません。

そして本来は元文書があることを前提に、そちらで編集作業するのが必要な話になります。

PDFを別形式に変換するのは、元ファイルが紛失されたなどの場合に少しでも変換できるかどうかといった救済策みたいなものです。

データがあれば万全ではないのが実際で、これはPDFに限らず、あらゆるシーン・データで同じことが言えます。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Feb 04, 2021 Feb 04, 2021

PDFからテキストへ変換してみました。acrobat DCのテキストボックスでは、ちゃんと見えているところが、文字化け、文字抜けしています。使い物になりません。

acrobat DCによる編集は主目的ではないと仰っていますが、コロナ対策で、オンライン授業が行われており、資料がPDFで配布される状況を考えて下さい。講義の内容をPDFに書き込めれば、紙のノートは不要ですよね。このような使い方をしてはいけないのですか? 何のための編集機能ですか?ヘルプに編集はしてはいけないと書いてあるのですか?

テキスト編集がまともに動かないとしたら、それはバグであり、速やかに処置されるべきです。と私は考えています。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Feb 06, 2021 Feb 06, 2021
最新

別名保存でテキストにした時に化けてる、ということであれば、それはもともと、裏で持っている文字コードが、表に見えている字形とは違うものを持っている、ということになります。

簡潔な説明図を用意しました。

 

Acroba_CharacterCode_and_Glyph.png

 

もしAcrobatで、見た目的に左の状態で見えていても、テキストとして書き出すと右になることはあり得ます。

真ん中に相当する、内部で持っている実際の文字コードが見た目とは違うからで、普通のテキストにして通常のフォントで表示すれば、右の結果になるからです。

 

「あ」のコードは本来、u+3042です。

しかしPDF作成方法などによっては、作成ソフトの扱いやすい方法に内部が書き換えられるということがあり、それが上記の結果になることがあります。

 

この場合はむしろ、Acrobat Proのプリフライトでフォントのアウトライン化をして、テキスト認識でOCR化したほうがマシになることはあります。

逆にそうでもしなければ内部的な情報は変わらないことになります。

そういうことがあるので、確実なのは「元の文書に戻ること」になります。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Feb 04, 2021 Feb 04, 2021

方法論がまちがっているのではないですか? ノートに書き込む代わりにPDFに書き込みたいのであれば注釈機能が該当する機能です。
元来PDFというのはオリジナルのデータが何某かのアプリケーションデータとして存在し、そのアプリケーションを使わなくても閲覧できるというものです。PDFへの変換を機能としてもつアプリケーションは数多くあります。それらのアプリケーション全てが真っ当なデータ構造を持つPDFを書き出せるわけではありません。そういった構造上の問題がPDFから他のフォーマットへの変換や内包する画像のOCR性能に大きく影響します。特に特殊なフォントを使用しているドキュメント等ではエンコーディング自体がカスタム化されているために変換の際に必ず文字化けを生じます。こういった事に全て対応することは世の中に流れているPDFを吐き出すことの出来るアプリケーション全てについて対応する必要があるでしょうから事実上不可能といえます。だからこういった変換機能はベストエフォートサービスとして提供されているのです。たしかに使えないシチュエーションでは全く役に立ちません。こういったベストエフォートサービスについてはユーザーサイドにおいても使える/使えないの見極めは必要です。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Feb 04, 2021 Feb 04, 2021

WORD化、テキスト化に着いては使えないことが分かりましたので、使いません。でもAdobeからの広告を見ると、完全なWORD化ができると書いてますよ。ベストエフォートとは書かれてません。

 

PDFの注釈を使うでも良いですが、なぜテキストボックスの編集を嫌がるのか、理由が分かりません。なぜダメと仰るのでしょうか? タダではない製品に機能があるのに、なぜ使ってはいけないのですか?

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Feb 05, 2021 Feb 05, 2021

広告ページを見ると,「完全なWORD化」ができそうに思えるのですけど,実は完全・完璧なコンバートができるとは書いてないのですよねぇ。逆に,ベストエフォート型とも,「(個人の感想です)」みないな文言も書かれていないので「完全なWORD化」を期待して契約・購入した人の腹立ちはとてもよくわかります。プロモーションに問題ありますよねぇ。

 

【アドビ公式】PDFをWordに変換する方法 | Adobe Acrobat DC 

 

最初にTen Aさんが書かれているとおりで,「うまくハマればそれなりに利用できる」レベルの機能だとあきらめて,我慢して付き合っていくか,いっそ使うのをやめるかでしょうね。

(個人の感想です)

 

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Expert ,
Feb 04, 2021 Feb 04, 2021

いやがるわけではありません。単純な構造のファイルであればそれも良いでしょう。しかし、Acrobatの編集機能は元のアプリケーションを取り扱うようにスムーズには編集を行えません。これは先にも言ったような理由で、PDFの文書構造自体が必ずしも編集に適した構造になっていない事に起因する問題です。編集の難易度に関してはどの様に生成されたPDFであるかというPDF自体の素性に大きく左右されます。
また、PDFのファイル構造自体もランダムアクセスが可能な構造になっているためフラグメンテーションの大きな状態である可能性があり、同一ページの前後の段落に見えても文書上のデータ位置としては全く異なる位置関係にある可能性もあります。こういった状態のものを編集しようとすると、例えば、改行すると次の行に移らずに全く別の位置に送られるということも起こり得るのです。こういった特性があるため編集作業というのは手間のかかる作業になりがちで、できれば避けたほうが無難だと言ってしまっても良いかと思います。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Community Beginner ,
Feb 05, 2021 Feb 05, 2021

丁寧な解説ありがとうございます。承知しました。テキストボックスの編集はやめて注釈に切り替えたいと思います。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines