Skip to main content
Participant
November 29, 2024
質問

PDFからExcelに変換すると列がズレる

  • November 29, 2024
  • 返信数 1.
  • 1445 ビュー

初めてAcrobatを利用しています。

ExcelをPDF変換したようなデータの紙ベースの資料を持っています。

 

日付   型番  数量  単価  金額

〇/〇    XXXX   2   100    200

 

罫線などはなく、列の間は空白のみです。

これをスキャンしたデータを、

・OCRにてテキスト認識

・Excelに変換

したところ、列ズレ・行ズレがかなり発生しました。

編集タブにて編集すればどうにかなるのかもと思ったのですが、点線の四角をどのようにすれば切り分けられるのかなどが全く分かりませんでした。

スキャンされたファイルを補正 もやってみましたが変化なしでした。

 

画像データのPDFをExcelデータに変換したいです。

このトピックへの返信は締め切られました。

返信数 1

assause
Community Expert
Community Expert
November 29, 2024

変換そのものはベストエフォートですから、必ずしも意図する変換ができる、というわけではないところです。

変換した結果を元にして、必要に応じての再編集は欠かせないところです。

 

列や行がそれなりにはっきりしているデータであれば、場合によっては列単位でテキスト取り出せるようにOCR処理かけるだけにして、整形は手作業でやった方が早いかもしれません。

Participant
December 2, 2024

ご提案いただきありがとうございます。

整形は手作業でやった方が早い

これはAcrobat上での「編集」を指しますでしょうか?

 

手元にあるPDFが200枚ほどページ数があり、一件一件成形するのがかなり手間です。

今、試しに縦罫を引いてみたのですが、それはそれでまた変換がおかしくなってしまいました。

assause様が指す「成形」の作業がどういったものか、ご教授いただけますでしょうか?

assause
Community Expert
Community Expert
December 2, 2024

整形のほうはExcelでの実施になります。

その処理は変換の後になってしまいますし、PDFでは大幅な編集自体が望めないからです。

 

もともと、PDF形式は印刷のデジタル化を目的としたものですから、一般的には編集元データは別にあるのが基本です。

PDFからの変換はどちらかというと救済措置的な役割になることがほとんどになり、どうしても元のデータがない、などの理由で変換することになってきます。

(精度などはともかく、このあたりは他のソフトなどで変換をかける場合でも同じになってきます)