Skip to main content
Participant
July 30, 2025
質問

PDFからテキストを抽出する際、ルビもわかりやすく抽出する方法

  • July 30, 2025
  • 返信数 2.
  • 238 ビュー

環境は Macmini os15.2 Acrobat2025 です

雑誌掲載時に2段組の縦書き文章だったものを

単行本作業のため1段に組み替えたいのですが、支給データがPDFしかありません

 

テキストのコピペで文章は拾えますが、ルビが中途半端な位置に入ってしまいます

よりよく抽出できる方法をさがしています

よろしくお願いします

    返信数 2

    Inspiring
    July 31, 2025

    使ったことは無いですが、これはどうでしょう?

    https://ocr.humanitext.ai/

    774san作成者
    Participant
    August 2, 2025

    OCRでルビだけ飛ばそうかと思いましたが、

    本文が正しく読み込めているかの校正も必要になるので

    今回は手作業でルビを入れようと思います

    ありがとうございました

    Omachi
    Legend
    July 30, 2025

    PDFのデータ構造では、文字の位置(座標)と文字コードしか持っていません。つまり「これはルビである」という情報を持てないのです。単に「この位置にこの大きさ(書体等の情報も含む)でこの文字が配置してある」という情報しかありません。

     

    そのため、テキストを抽出する機能は「座標が近い位置の文字は多分連続しているんだろう」という想定で文字コードを並べているにすぎません。そのため、ルビが中途半端な位置に入ってくるわけです。

     

    したがって、テキストを抽出する際に「これはルビであり、親文字はこれだ」と判断してくれる機能を持ったアプリケーションでないと実現は不可能なのです。残念ながらAcrobatではそこまでの複雑な機能はありません。

     

    そのため、ほかのアプリケーションを探すしかありません。ただ、PDFに限って探すと見つからないかもしれないので(私が知らないだけかもしれませんが)、OCR(画像を読み取ってそこから文字を推定してテキストを作成する)が可能なアプリケーションを広く探すことになるでしょう。

    774san作成者
    Participant
    August 2, 2025

    詳しく説明してくださり、ありがとうございました

    今回のルビ入れは手作業で頑張ろうと思います