PDFからテキストを抽出する際、ルビもわかりやすく抽出する方法

レポート · Jul 30, 2025

環境は　Macmini　os15.2　Acrobat2025　です

雑誌掲載時に2段組の縦書き文章だったものを

単行本作業のため1段に組み替えたいのですが、支給データがPDFしかありません

テキストのコピペで文章は拾えますが、ルビが中途半端な位置に入ってしまいます

よりよく抽出できる方法をさがしています

よろしくお願いします

レポート · Jul 30, 2025

PDFのデータ構造では、文字の位置（座標）と文字コードしか持っていません。つまり「これはルビである」という情報を持てないのです。単に「この位置にこの大きさ（書体等の情報も含む）でこの文字が配置してある」という情報しかありません。

そのため、テキストを抽出する機能は「座標が近い位置の文字は多分連続しているんだろう」という想定で文字コードを並べているにすぎません。そのため、ルビが中途半端な位置に入ってくるわけです。

したがって、テキストを抽出する際に「これはルビであり、親文字はこれだ」と判断してくれる機能を持ったアプリケーションでないと実現は不可能なのです。残念ながらAcrobatではそこまでの複雑な機能はありません。

そのため、ほかのアプリケーションを探すしかありません。ただ、PDFに限って探すと見つからないかもしれないので（私が知らないだけかもしれませんが）、OCR（画像を読み取ってそこから文字を推定してテキストを作成する）が可能なアプリケーションを広く探すことになるでしょう。

レポート · Aug 01, 2025

詳しく説明してくださり、ありがとうございました

今回のルビ入れは手作業で頑張ろうと思います

レポート · Jul 30, 2025

使ったことは無いですが、これはどうでしょう？

レポート · Aug 02, 2025

OCRでルビだけ飛ばそうかと思いましたが、

本文が正しく読み込めているかの校正も必要になるので

今回は手作業でルビを入れようと思います

ありがとうございました