終了

PDFからテキストを抽出する際、ルビもわかりやすく抽出する方法

New Here ,
Jul 30, 2025 Jul 30, 2025

環境は Macmini os15.2 Acrobat2025 です

雑誌掲載時に2段組の縦書き文章だったものを

単行本作業のため1段に組み替えたいのですが、支給データがPDFしかありません

 

テキストのコピペで文章は拾えますが、ルビが中途半端な位置に入ってしまいます

よりよく抽出できる方法をさがしています

よろしくお願いします

キーワード
手順
199
翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
メンター ,
Jul 30, 2025 Jul 30, 2025

PDFのデータ構造では、文字の位置(座標)と文字コードしか持っていません。つまり「これはルビである」という情報を持てないのです。単に「この位置にこの大きさ(書体等の情報も含む)でこの文字が配置してある」という情報しかありません。

 

そのため、テキストを抽出する機能は「座標が近い位置の文字は多分連続しているんだろう」という想定で文字コードを並べているにすぎません。そのため、ルビが中途半端な位置に入ってくるわけです。

 

したがって、テキストを抽出する際に「これはルビであり、親文字はこれだ」と判断してくれる機能を持ったアプリケーションでないと実現は不可能なのです。残念ながらAcrobatではそこまでの複雑な機能はありません。

 

そのため、ほかのアプリケーションを探すしかありません。ただ、PDFに限って探すと見つからないかもしれないので(私が知らないだけかもしれませんが)、OCR(画像を読み取ってそこから文字を推定してテキストを作成する)が可能なアプリケーションを広く探すことになるでしょう。

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
New Here ,
Aug 01, 2025 Aug 01, 2025

詳しく説明してくださり、ありがとうございました

今回のルビ入れは手作業で頑張ろうと思います

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
Contributor ,
Jul 30, 2025 Jul 30, 2025

使ったことは無いですが、これはどうでしょう?

https://ocr.humanitext.ai/

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines
New Here ,
Aug 02, 2025 Aug 02, 2025
最新

OCRでルビだけ飛ばそうかと思いましたが、

本文が正しく読み込めているかの校正も必要になるので

今回は手作業でルビを入れようと思います

ありがとうございました

翻訳
レポート
コミュニティガイドライン
他のユーザーへの思いやりを持ち、敬意を払いましょう。コンテンツの出典を明記し、投稿する前に内容が重複していないか検索してください。 さらに詳しく
community guidelines