Exit
  • Global community
    • Language:
      • Deutsch
      • English
      • Español
      • Français
      • Português
  • 日本語コミュニティ
  • 한국 커뮤니티
0

PDF->CSV // Mass partial OCR export

New Here ,
Jul 06, 2016 Jul 06, 2016

Hallo,

ich hoffe, dass der ein oder andere vielleicht doch einen Lösungsansatz für mein vertracktes Problem finden kann.

Ich besitze 4000 Rechnungen, von denen ich NUR die Kundenadresse weiterverarbeiten möchte - z.B. in Form von einer csv-Datei. Ich habe bereits versucht, das ganze über pdftotext und Regular Expressions zu lösen - dies ist jedoch leider aufgrund der zu großen Ungenauigkeit gescheitert.

Wichtig zu wissen: Das Adressfeld und damit die Adresszeilen befinden sich absolut gesehen immer an derselben Position.

Letztendlich würde ich am liebsten einen bestimmten Bereich der PDFs - z.B. den Bereich der ersten Adresszeile mit dem Firmennamen, den Bereich der zweiten Adresszeile mit der Straße+Hausnummer sowie den Bereich der dritten Adresszeile mit PLZ+Ort. In genau diesen Bereichen soll der Text ausgelesen werden und pro .pdf in einen Datensatz gespeichert werden.

Nach einiger Recherche konnte ich hierzu leider keine weitestgehend automatisierte Lösung finden. Vielleicht kann doch noch jemand helfen

Grüße

Phil

TOPICS
Acrobat SDK and JavaScript
307
Translate
Report
Community guidelines
Be kind and respectful, give credit to the original source of content, and search for duplicates before posting. Learn more
community guidelines
no replies

Have something to add?

Join the conversation