Heim > Backend-Entwicklung > Python-Tutorial > Warum erzeugt meine Python-PDF-Textextraktion eine verstümmelte Ausgabe und wie kann ich das beheben?

Warum erzeugt meine Python-PDF-Textextraktion eine verstümmelte Ausgabe und wie kann ich das beheben?

Barbara Streisand
Freigeben: 2024-12-03 15:53:11
Original
991 Leute haben es durchsucht

Why Does My Python PDF Text Extraction Produce Garbled Output, and How Can I Fix It?

Extrahieren von PDF-Text mit Python: Fehlerbehebung bei Ausgabeunterschieden

Beim Versuch, Text aus einer PDF-Datei mithilfe der PyPDF2-Bibliothek von Python zu extrahieren, tritt ein Problem auf dass die Ausgabe vom Text im PDF-Dokument abweicht. Insbesondere ist die Ausgabe verzerrt und enthält unleserliche Zeichen.

Um den PDF-Text effektiv zu extrahieren, wird die Verwendung des Tika-Pakets empfohlen. Im Gegensatz zu PyPDF2 unterstützt es die PDF-Textextraktion unter Beibehaltung der ursprünglichen Formatierung.

So können Sie Tika zum Extrahieren von Text verwenden:

from tika import parser # pip install tika

raw = parser.from_file('sample.pdf')
print(raw['content'])
Nach dem Login kopieren

Beachten Sie, dass Tika auf einer Java-Laufzeitumgebung basiert, die dies tun muss muss installiert werden, bevor es mit Python verwendet wird.

Das obige ist der detaillierte Inhalt vonWarum erzeugt meine Python-PDF-Textextraktion eine verstümmelte Ausgabe und wie kann ich das beheben?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage