PDFからExcelに変換すると列がズレる

レポート · Nov 28, 2024

初めてAcrobatを利用しています。

ExcelをPDF変換したようなデータの紙ベースの資料を持っています。

日付　　　型番　　数量　　単価　　金額

〇/〇　　 XXXX　　　2　　　100　　 200

…

罫線などはなく、列の間は空白のみです。

これをスキャンしたデータを、

・OCRにてテキスト認識

・Excelに変換

したところ、列ズレ・行ズレがかなり発生しました。

編集タブにて編集すればどうにかなるのかもと思ったのですが、点線の四角をどのようにすれば切り分けられるのかなどが全く分かりませんでした。

スキャンされたファイルを補正　もやってみましたが変化なしでした。

画像データのPDFをExcelデータに変換したいです。

レポート · Nov 29, 2024

変換そのものはベストエフォートですから、必ずしも意図する変換ができる、というわけではないところです。

変換した結果を元にして、必要に応じての再編集は欠かせないところです。

列や行がそれなりにはっきりしているデータであれば、場合によっては列単位でテキスト取り出せるようにOCR処理かけるだけにして、整形は手作業でやった方が早いかもしれません。

レポート · Dec 01, 2024

ご提案いただきありがとうございます。

＞整形は手作業でやった方が早い

これはAcrobat上での「編集」を指しますでしょうか？

手元にあるPDFが200枚ほどページ数があり、一件一件成形するのがかなり手間です。

今、試しに縦罫を引いてみたのですが、それはそれでまた変換がおかしくなってしまいました。

assause様が指す「成形」の作業がどういったものか、ご教授いただけますでしょうか？

レポート · Dec 01, 2024

整形のほうはExcelでの実施になります。

その処理は変換の後になってしまいますし、PDFでは大幅な編集自体が望めないからです。

もともと、PDF形式は印刷のデジタル化を目的としたものですから、一般的には編集元データは別にあるのが基本です。

PDFからの変換はどちらかというと救済措置的な役割になることがほとんどになり、どうしても元のデータがない、などの理由で変換することになってきます。

（精度などはともかく、このあたりは他のソフトなどで変換をかける場合でも同じになってきます）