Extrahieren von PDF-Text mit Python: Fehlerbehebung bei Ausgabeunterschieden
Beim Versuch, Text aus einer PDF-Datei mithilfe der PyPDF2-Bibliothek von Python zu extrahieren, tritt ein Problem auf dass die Ausgabe vom Text im PDF-Dokument abweicht. Insbesondere ist die Ausgabe verzerrt und enthält unleserliche Zeichen.
Um den PDF-Text effektiv zu extrahieren, wird die Verwendung des Tika-Pakets empfohlen. Im Gegensatz zu PyPDF2 unterstützt es die PDF-Textextraktion unter Beibehaltung der ursprünglichen Formatierung.
So können Sie Tika zum Extrahieren von Text verwenden:
from tika import parser # pip install tika raw = parser.from_file('sample.pdf') print(raw['content'])
Beachten Sie, dass Tika auf einer Java-Laufzeitumgebung basiert, die dies tun muss muss installiert werden, bevor es mit Python verwendet wird.
Das obige ist der detaillierte Inhalt vonWarum erzeugt meine Python-PDF-Textextraktion eine verstümmelte Ausgabe und wie kann ich das beheben?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!