Acrobat Pro DC (2020) でテキスト認識すると、Windows版とMac版で結果が異なる
- December 17, 2020
- 0 replies
- 382 views
<バージョン情報>
Windows: Acrobat Pro DC 2020.013.20074, Windows 10 Pro 20H2
Mac: Acrobat Pro DC 2020.013.20074, Big Sur 11.1(M1)
スキャンした白黒2値のTIFFファイルをAcrobatにて結合し、テキスト認識(日本語)をかけました。目的は、全文検索とテキストデータを他のアプリにコピーして使用するためです。
同じオリジナルファイルをWindows, Macでそれぞれ処理させ、処理結果を確認しました。
[OCR処理の手順]
スキャンとOCR > テキスト認識 > このファイル内
言語:日本語
出力:検索可能な画像(非圧縮)
[処理結果確認の手順]
保護 > 非表示情報を検索して削除 > 非表示テキスト > プレビューを表示
結果を見ると、Windows版では、透明テキストが正しく生成されている*のに対して、Mac版では、「・」(中黒)のような記号に置きかわっており、それの羅列が表示されます。
非表示テキストのプレビューを開くと、左側に大きなプレビュー、右側の小さなボックスにプレーンテキストが表示されますが、Windows版のAcrobatでテキスト認識をかけると両方とも読める形になっているのに対して、Mac版で認識をかけたものは、右側のプレーンテキストは正しいものの、左側が「・・・」の羅列になります。
なお、結果はWindows, Mac双方で同じ表示になるため、生成されたファイルに問題があると思われます。
*左側の大きなプレビューに、認識結果が正しく表示されていれば、「透明テキストが正しく生成されている」と捉えています。
文字認識自体はされているので、認識精度の問題ではなく、出力の問題なのではないかと考えています。非表示テキストのプレビューが正しくないと、検索結果やテキストをコピーした場合に影響が出ます。具体的には、「・・・」がコピーされたり、内容が取り出せたとしても、複数行コピーした場合に順番がバラバラになったりします。
テキストが正しくコピーできないことについては、過去にも、同じような問題が報告されています。
https://community.adobe.com/t5/acrobat%E3%83%95%E3%82%A9%E3%83%BC%E3%83%A9%E3%83%A0/acrobat-x-windows-%E3%81%A8acrobat-pro-dc-mac-%E3%81%A7%E3%83%86%E3%82%AD%E3%82%B9%E3%83%88%E8%AA%8D%E8%AD%98%E3%81%AE%E6%96%B9%E6%B3%95%E3%81%8C%E9%81%95%E3%81%86/m-p/8518922?page=1
*縦書き画像、横書き画像ともに試しましたが、本事象には影響しませんでした。(縦書き/横書きはしっかり判別されているが、「・・・」の羅列になりプレビューが正しく表示されない)
*この問題は、OCRの言語が「日本語」ではなく「英語(アメリカ)」の場合は緩和されます。(Win, Macで結果は同一ではないが、左右のボックスで結果が一致している。)
