Formatratgeber17. März 2026
Meidy Baffou·LazyPDF

PDF in XML umwandeln: Strukturierte Daten aus PDFs extrahieren

XML (Extensible Markup Language) ist das Standard-Austauschformat für strukturierte Daten in vielen Geschäftsprozessen. Ob B2B-Bestellsysteme, ERP-Integrationen, E-Invoicing nach ZUGFeRD-Standard oder behördliche Datenmeldungen – überall dort, wo Daten zwischen Systemen ausgetauscht werden, spielt XML eine zentrale Rolle. Das Problem: Viele Geschäftsdokumente liegen als PDFs vor und müssen für die automatisierte Weiterverarbeitung zunächst in strukturiertes XML umgewandelt werden. Die direkte Konvertierung von PDF zu XML ist kein standardisierter Prozess – verschiedene Softwaretools bieten unterschiedliche Ansätze. Für Geschäftsdaten aus PDFs (Rechnungen, Bestellungen, Lieferscheine) gibt es spezialisierte OCR-basierte Extraktionstools. Für allgemeinere Konvertierungen kann der Umweg über Word (DOCX) oder HTML sinnvoll sein, da beide Formate eine strukturierte Darstellung von Dokumenten ermöglichen, die dann in XML umgewandelt werden kann. In dieser Anleitung erklären wir verschiedene Wege, wie Sie mit LazyPDF und ergänzenden Tools strukturierte Daten aus PDFs extrahieren und für XML-basierte Weiterverarbeitung aufbereiten können.

Wann braucht man XML aus PDFs?

Die Konvertierung von PDF zu XML ist in spezifischen Geschäftsszenarien relevant. E-Invoicing und ZUGFeRD: In Deutschland ist das ZUGFeRD-Format (Zentraler User Guide des Forums elektronische Rechnung Deutschland) ein Hybridformat, das PDF und eingebettetes XML kombiniert. Wenn Sie Rechnungen im ZUGFeRD-Format erhalten, enthält das PDF bereits ein eingebettetes XML – dieses können Sie mit speziellen Tools extrahieren, ohne eine neue Konvertierung durchführen zu müssen. Datenintegration aus PDF-Berichten: Wenn Sie regelmäßig Daten aus strukturierten PDF-Berichten (z.B. Auswertungen aus alten Systemen) in Ihre ERP- oder CRM-Lösung importieren müssen, kann eine XML-Konvertierung sinnvoll sein. Rechtliche und behördliche Anforderungen: Manche Behörden und Gerichte verlangen Unterlagen in strukturierten Formaten wie XML oder XHTML. Wenn Sie Dokumente in XML-basierten Formaten einreichen müssen, müssen Sie sie zunächst aus dem PDF-Format extrahieren.

PDF in Word konvertieren als erster Schritt

Der erste Schritt für die PDF-zu-XML-Konvertierung ist typischerweise die Umwandlung des PDFs in ein bearbeitbares Format. Das PDF-to-Word-Tool von LazyPDF konvertiert ein Text-PDF in ein DOCX-Dokument, das die Textstruktur des PDFs weitgehend bewahrt. Für gescannte PDFs muss zunächst OCR angewendet werden: Nutzen Sie das OCR-Tool von LazyPDF, um das Scan-PDF in ein Text-PDF umzuwandeln, und konvertieren Sie dieses dann in DOCX. Das resultierende DOCX enthält den strukturierten Text mit Überschriften, Absätzen und Tabellen – eine gute Grundlage für die weitere XML-Konvertierung.

  1. 1Prüfen Sie, ob das PDF selektierbaren Text enthält (Text markieren möglich?).
  2. 2Falls gescannt: OCR mit LazyPDF OCR-Tool anwenden.
  3. 3Öffnen Sie das PDF-to-Word-Tool auf LazyPDF unter /de/pdf-to-word.
  4. 4Laden Sie das (ggf. OCR-verarbeitete) PDF hoch und konvertieren Sie es zu DOCX.
  5. 5Öffnen Sie das DOCX in Word und überprüfen Sie die Strukturerhaltung.

DOCX in XML umwandeln mit Word oder LibreOffice

Microsoft Word und LibreOffice Writer bieten beide Exportfunktionen für XML-Formate. In LibreOffice Writer: Öffnen Sie das DOCX und speichern Sie es über 'Datei > Speichern unter' als 'Word XML Format (.xml)' oder als 'ODF XML'. Für strukturierteres XML können Sie das DOCX auch in LibreOffice als 'Word 2003 XML (.xml)' speichern – dieses Format erzeugt gut lesbares XML mit Dokumentstruktur. In Microsoft Word: Speichern Sie das Dokument als 'Word XML Document (.xml)'. Das erzeugt ein OOXML (Office Open XML), das sehr verbose, aber vollständig strukturiert ist. Für einfachere XML-Strukturen kann das Dokument auch als 'Filtered HTML (.htm)' gespeichert werden, da HTML-Struktur einfacher in XML zu transformieren ist. Mit XSLT-Transformationen können Sie dann das Word-XML oder HTML-XML in ein spezifisches Ziel-XML-Format transformieren, das Ihr Zielsystem erwartet.

Strukturierte Rechnungsdaten aus PDF für XML extrahieren

Für den speziellen Anwendungsfall Rechnungen gibt es in Deutschland den ZUGFeRD-Standard (und den europäischen XRechnung-Standard), der strukturierte Rechnungsdaten in XML eingebettet in einem PDF enthält. Wenn Sie Rechnungen im ZUGFeRD-Format erhalten, müssen Sie nicht das gesamte PDF konvertieren – Sie können einfach das eingebettete XML extrahieren. Für die Erstellung von ZUGFeRD-Rechnungen und XRechnungen gibt es spezialisierte Software wie ZUGFeRD-Manager oder Factur-X Creator. Diese Tools erstellen direkt ZUGFeRD-konforme PDFs mit eingebettetem XML, ohne dass Sie den Umweg über LazyPDF gehen müssen. Wenn Sie jedoch vorhandene PDF-Rechnungen in ein XML-Format für Ihr Buchhaltungssystem extrahieren müssen, ist der Weg über LazyPDF (PDF zu DOCX) und dann Extraktion der relevanten Daten die praktikabelste Lösung.

Häufig gestellte Fragen

Gibt es eine direkte Möglichkeit, PDF in XML umzuwandeln?

Ja, es gibt kommerzielle und Open-Source-Tools, die direkte PDF-zu-XML-Konvertierung anbieten. Apache PDFBox ist eine Java-Bibliothek, die Text und Strukturinformationen aus PDFs extrahieren und als XML ausgeben kann. Docling (IBM) und andere KI-basierte Tools ermöglichen strukturierte Extraktion aus PDFs. Für einfache Anwendungsfälle ist jedoch der Weg über LazyPDF (PDF → DOCX) und dann Word-XML-Export der einfachste ohne Programmieraufwand.

Was ist ZUGFeRD und wie hilft es bei der Rechnungsverarbeitung?

ZUGFeRD (Zentraler User Guide des Forums elektronische Rechnung Deutschland) ist ein deutsches Standardformat für elektronische Rechnungen, das ein lesbares PDF mit eingebettetem strukturierten XML kombiniert. Das PDF kann wie eine normale Rechnung gedruckt und archiviert werden, das eingebettete XML kann von Softwaresystemen automatisch verarbeitet werden. ZUGFeRD ist kompatibel mit dem europäischen Factur-X-Standard. Ab 2025 ist in Deutschland die XRechnung (XML-basierte Rechnung) für B2G-Rechnungen verpflichtend.

Kann ich mit LazyPDF auch Tabellen aus PDFs als strukturiertes XML exportieren?

LazyPDF konvertiert PDFs in Excel-Format (XLSX), nicht direkt in XML. Sie können jedoch die Excel-Datei nutzen, um strukturierte Daten zu erhalten, und diese dann in einem weiteren Schritt als XML exportieren: In Excel über Datei > Exportieren als XML (wenn ein XML-Schema definiert ist) oder durch Programmierung mit Python (openpyxl oder pandas) zur XML-Konvertierung.

Was ist XSLT und wie hilft es bei der XML-Transformation?

XSLT (Extensible Stylesheet Language Transformations) ist eine Sprache für die Transformation von XML-Dokumenten in andere XML-Strukturen oder andere Formate. Wenn Sie Word-XML oder OOXML in ein spezifisches Ziel-XML-Format (z.B. ein bestimmtes Schema Ihres ERP-Systems) umwandeln möchten, können Sie eine XSLT-Transformation schreiben. XSLT-Transformationen werden in Browsern, in Java-Programmen und in vielen Werkzeug-Chains unterstützt. Für Nicht-Programmierer ist der direkte manuelle Weg (PDF → DOCX → strukturiertes XML bearbeiten) praktikabler.

Extrahieren Sie strukturierte Daten aus Ihren PDFs: Mit LazyPDF PDF in Word umwandeln und für XML-Weiterverarbeitung aufbereiten.

PDF in Word umwandeln

Ähnliche Artikel