PDF-Text wird als Symbole kopiert: Ursachen und Lösungen

Sie markieren Text in einem PDF, kopieren ihn und fügen ihn in Word oder einen Texteditor ein – aber statt des lesbaren Textes erscheinen kryptische Sonderzeichen, Symbole, Fragezeichen oder unlesbares Kauderwelsch. Das ist eines der häufigsten und frustrierendsten PDF-Probleme, das in deutschen Büros und Kanzleien täglich auftritt. Das Problem betrifft besonders ältere PDFs aus den 2000er-Jahren, PDFs mit individuellen oder ungewöhnlichen Schriftarten (Custom Fonts), gescannte Dokumente, die mit veralteter OCR-Software verarbeitet wurden, und PDFs, die aus speziellen Branchensoftwares exportiert wurden (Buchhaltungsprogramme, juristische Software, technische Zeichenprogramme). In deutschen Behörden und Unternehmen ist das Problem besonders häufig bei ELSTER-Bescheiden, älteren Formularen der Deutschen Rentenversicherung oder archivierten Geschäftsunterlagen aus den frühen 2000er-Jahren zu beobachten. In diesem Artikel erklären wir die technischen Hintergründe und zeigen pragmatische Lösungen.

Technische Ursachen für Symbole statt Text

Die Ursache liegt in der Art, wie Schriften in PDFs eingebettet werden. Es gibt zwei grundlegende Probleme: Custom Encoding: Manche PDF-Erstellungsprogramme verwenden eine angepasste Zeichencodierung – die Buchstaben werden nicht mit dem Standard-Unicode-Wert gespeichert, sondern mit einer proprietären Tabelle. Wenn ein anderes Programm den kopierten Text interpretiert, kennt es die proprietäre Codierungstabelle nicht und zeigt stattdessen Symbole an. Subset-Fonts ohne ToUnicode-Tabelle: Aus Effizienzgründen betten manche Tools nur die im Dokument tatsächlich verwendeten Zeichen einer Schrift ein (Subset). Wenn die sogenannte ToUnicode-Tabelle fehlt, die die Verbindung zwischen Schriftzeichen und Unicode-Codepunkt herstellt, kann kein anderes Programm den Text korrekt interpretieren. Besonders betroffen sind PDFs aus CAD-Programmen, älterem SAP-Export, bestimmten Buchhaltungssoftwares und einigen juristischen Softwaresystemen.

OCR als Lösung für Textkopierprobleme

Die zuverlässigste Lösung für das Symbole-Problem ist die OCR-Verarbeitung (Optical Character Recognition). OCR liest den Text optisch aus dem PDF, ignoriert die fehlerhafte eingebettete Textkodierung vollständig und erstellt eine neue, korrekte Textebene über dem Dokument. LazyPDF OCR analysiert jede Seite des PDFs visuell und erkennt den Text anhand des Erscheinungsbilds der Buchstaben, nicht anhand der gespeicherten Zeichencodes. Das Ergebnis ist ein PDF mit einer korrekten, kopierbaren Textebene in Standard-Unicode. Wichtig: OCR-Qualität hängt von der Bildschärfe des PDFs ab. Bei hochauflösenden PDFs (300 dpi und mehr) liefert OCR sehr gute Ergebnisse. Bei sehr kleinen Schriften oder komplizierten Layouts (Tabellen, mehrspaltige Layouts) kann die Erkennungsgenauigkeit variieren.

1Öffnen Sie LazyPDF OCR im Browser.
2Laden Sie das problematische PDF hoch.
3Starten Sie die OCR-Verarbeitung und wählen Sie bei Bedarf die Sprache Deutsch.
4Laden Sie das OCR-verarbeitete PDF herunter.
5Testen Sie die Textkopie: Markieren Sie Text und kopieren Sie ihn in einen Editor – er sollte jetzt lesbar sein.

PDF in Word konvertieren als Alternative

Wenn Sie den Text nur einmalig benötigen oder das gesamte Dokument in eine editierbare Form bringen möchten, ist die Konvertierung mit LazyPDF PDF-to-Word eine gute Alternative. Diese Konvertierung verwendet ebenfalls Texterkennung und erstellt eine Word-Datei, in der der Text direkt bearbeitet werden kann. Der Vorteil der PDF-to-Word-Konvertierung gegenüber OCR: Sie erhalten sofort eine vollständig editierbare Version des Dokuments. Der Nachteil: Das ursprüngliche PDF-Layout wird möglicherweise nicht perfekt beibehalten, besonders bei komplexen mehrseitigen Dokumenten mit Grafiken und Tabellen. Für die reine Textkopie ohne Layoutänderung empfiehlt sich OCR + Download als PDF, danach normales Kopieren. Für eine editierbare Version des gesamten Dokuments empfiehlt sich die direkte PDF-to-Word-Konvertierung.

Vorbeugung: PDFs mit korrekter Texteinbettung erstellen

Wenn Sie selbst PDFs erstellen und sicherstellen möchten, dass Textkopien korrekt funktionieren, beachten Sie folgende Punkte: Verwenden Sie beim PDF-Export aus Microsoft Office immer den eingebauten Export-Button (Datei > Exportieren > PDF), nicht den Druck-zu-PDF-Pfad. Office-Export bettet Schriften korrekt mit ToUnicode-Tabellen ein. Für PDFs aus InDesign oder Illustrator: Aktivieren Sie bei der PDF-Erstellung die Option 'Embed All Fonts' und stellen Sie sicher, dass keine Custom-Encoding-Optionen aktiviert sind. Bei Programmen ohne direkte PDF-Unterstützung: Nutzen Sie einen PDF-Drucker wie Microsoft Print to PDF (Windows) oder macOS PDF-Druck (Datei > Als PDF sichern), die standardmäßig korrekte Unicode-Zeichencodierung verwenden. Für DSGVO-konforme Archivierung in deutschen Unternehmen nach GoBD: Stellen Sie sicher, dass archivierte PDFs mit durchsuchbaren und kopierbaren Texten versehen sind. Gescannte Dokumente sollten nach der Digitalisierung immer mit OCR verarbeitet werden, um Durchsuchbarkeit und Kopierbarkeit sicherzustellen.

Häufig gestellte Fragen

Warum funktioniert das Kopieren in manchen PDFs und in anderen nicht?

Das hängt davon ab, wie das PDF erstellt wurde und ob die Schrift korrekt eingebettet wurde. PDFs aus modernen Office-Programmen (Word, LibreOffice, neuere Acrobat-Versionen) verwenden Standard-Unicode-Encoding und lassen sich problemlos kopieren. Ältere PDFs oder solche aus spezialisierten Programmen haben oft Encoding-Probleme.

OCR hat meinen Text erkannt, aber mit vielen Fehlern – was kann ich tun?

OCR-Qualität hängt stark von der Bildauflösung ab. Wenn das Original-PDF niedrige Auflösung hat (unter 150 dpi), können viele Fehler auftreten. Versuchen Sie, das Original-Dokument erneut zu scannen mit mindestens 300 dpi. Falls nur ein digitales PDF vorliegt: Konvertieren Sie es in Bilder mit hoher Auflösung und wenden Sie dann OCR an.

Kann ich einen kopierten Text aus Symbolen manuell zurück in Text umwandeln?

In Einzelfällen ja, wenn es sich um eine bekannte Zeichenersetzung handelt. Es gibt spezielle Programme, die 'Symbol-zu-Text'-Konvertierungen für bekannte proprietäre Schriften durchführen können. In der Praxis ist es jedoch fast immer schneller und zuverlässiger, das PDF mit OCR neu zu verarbeiten, statt manuelle Zeichenersetzungen vorzunehmen.

Betrifft das Problem auch Texte in anderen Sprachen wie Arabisch oder Chinesisch?

Ja, bei nicht-lateinischen Schriften ist das Problem noch häufiger, da diese Schriften komplexere Encoding-Anforderungen haben. Deutsche Umlaute (ä, ö, ü, ß) können ebenfalls betroffen sein, obwohl weniger häufig als bei exotischen Schriften. OCR mit der richtigen Spracheinstellung löst das Problem für alle Sprachen.

Machen Sie PDFs mit fehlerhafter Textcodierung lesbar: LazyPDF OCR erstellt eine korrekte, kopierbare Textebene in allen Ihren PDF-Dokumenten.

PDF mit OCR verarbeiten