Warum erzeugt meine Python-PDF-Textextraktion eine verstümmelte Ausgabe und wie kann ich das beheben?-Python-Tutorial-php.cn

Warum erzeugt meine Python-PDF-Textextraktion eine verstümmelte Ausgabe und wie kann ich das beheben?

Barbara Streisand

Freigeben： 2024-12-03 15:53:11

Original

1067 Leute haben es durchsucht

Why Does My Python PDF Text Extraction Produce Garbled Output, and How Can I Fix It?

Extrahieren von PDF-Text mit Python: Fehlerbehebung bei Ausgabeunterschieden

Beim Versuch, Text aus einer PDF-Datei mithilfe der PyPDF2-Bibliothek von Python zu extrahieren, tritt ein Problem auf dass die Ausgabe vom Text im PDF-Dokument abweicht. Insbesondere ist die Ausgabe verzerrt und enthält unleserliche Zeichen.

Um den PDF-Text effektiv zu extrahieren, wird die Verwendung des Tika-Pakets empfohlen. Im Gegensatz zu PyPDF2 unterstützt es die PDF-Textextraktion unter Beibehaltung der ursprünglichen Formatierung.

So können Sie Tika zum Extrahieren von Text verwenden:

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])

Nach dem Login kopieren

Beachten Sie, dass Tika auf einer Java-Laufzeitumgebung basiert, die dies tun muss muss installiert werden, bevor es mit Python verwendet wird.

Das obige ist der detaillierte Inhalt vonWarum erzeugt meine Python-PDF-Textextraktion eine verstümmelte Ausgabe und wie kann ich das beheben?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!