リンクをクリップボードにコピー
コピー完了
リンクをクリップボードにコピー
コピー完了
PDFのデータ構造では、文字の位置(座標)と文字コードしか持っていません。つまり「これはルビである」という情報を持てないのです。単に「この位置にこの大きさ(書体等の情報も含む)でこの文字が配置してある」という情報しかありません。
そのため、テキストを抽出する機能は「座標が近い位置の文字は多分連続しているんだろう」という想定で文字コードを並べているにすぎません。そのため、ルビが中途半端な位置に入ってくるわけです。
したがって、テキストを抽出する際に「これはルビであり、親文字はこれだ」と判断してくれる機能を持ったアプリケーションでないと実現は不可能なのです。残念ながらAcrobatではそこまでの複雑な機能はありません。
そのため、ほかのアプリケーションを探すしかありません。ただ、PDFに限って探すと見つからないかもしれないので(私が知らないだけかもしれませんが)、OCR(画像を読み取ってそこから文字を推定してテキストを作成する)が可能なアプリケーションを広く探すことになるでしょう。
リンクをクリップボードにコピー
コピー完了
詳しく説明してくださり、ありがとうございました
今回のルビ入れは手作業で頑張ろうと思います
リンクをクリップボードにコピー
コピー完了
使ったことは無いですが、これはどうでしょう?
リンクをクリップボードにコピー
コピー完了
OCRでルビだけ飛ばそうかと思いましたが、
本文が正しく読み込めているかの校正も必要になるので
今回は手作業でルビを入れようと思います
ありがとうございました
新しいアドビコミュニティで、さらに多くのインスピレーション、イベント、リソースを見つけましょう
今すぐ検索