PDFからテキストを抽出する際、ルビもわかりやすく抽出する方法

Question

環境は　Macmini　os15.2　Acrobat2025　です雑誌掲載時に2段組の縦書き文章だったものを単行本作業のため1段に組み替えたいのですが、支給データがPDFしかありません テキストのコピペで文章は拾えますが、ルビが中途半端な位置に入ってしまいますよりよく抽出できる方法をさがしていますよろしくお願いします

Omachi · Answer

PDFのデータ構造では、文字の位置（座標）と文字コードしか持っていません。つまり「これはルビである」という情報を持てないのです。単に「この位置にこの大きさ（書体等の情報も含む）でこの文字が配置してある」という情報しかありません。

そのため、テキストを抽出する機能は「座標が近い位置の文字は多分連続しているんだろう」という想定で文字コードを並べているにすぎません。そのため、ルビが中途半端な位置に入ってくるわけです。

したがって、テキストを抽出する際に「これはルビであり、親文字はこれだ」と判断してくれる機能を持ったアプリケーションでないと実現は不可能なのです。残念ながらAcrobatではそこまでの複雑な機能はありません。

そのため、ほかのアプリケーションを探すしかありません。ただ、PDFに限って探すと見つからないかもしれないので（私が知らないだけかもしれませんが）、OCR（画像を読み取ってそこから文字を推定してテキストを作成する）が可能なアプリケーションを広く探すことになるでしょう。

サインアップ

ソーシャルログイン

コミュニティへログイン

ソーシャルログイン