Dieser Artikel zeigt Ihnen, wie Sie mit Python den Textinhalt vieler PDF-Dateien stapelweise extrahieren.
Zuerst lesen wir einige Module ein, um Dateioperationen durchzuführen. (Empfohlenes Lernen: Python-Video-Tutorial)
import glob import os
Es gibt zwei Ordner im Demo-Verzeichnis, nämlich pdf und newpdf.
Wir geben als PDF-Ordner den Pfad an, in dem sich die PDF-Datei befindet.
pdf_path = "pdf/"
Wir wollen den Pfad aller PDF-Dateien erhalten. Mit glob kann diese Funktion mit einem Befehl ausgeführt werden.
pdfs = glob.glob("{}/*.pdf".format(pdf_path))
Überprüfen Sie, ob der von uns erhaltene PDF-Dateipfad korrekt ist.
pdfs
Verifiziert. Genau.
Als nächstes verwenden wir pdfminer, um Inhalte aus PDF-Dateien zu extrahieren. Wir müssen die Funktion extract_pdf_content aus der Python-Hilfsdatei pdf_extractor.py einlesen.
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf', 'pdf/面向影子分析的社交媒体竞争情报搜集.pdf', 'pdf/面向人机协同的移动互联网政务门户探析.pdf']
Mit dieser Funktion versuchen wir, den Inhalt aus dem ersten Artikel in der PDF-Dateiliste zu extrahieren und den Text in der Inhaltsvariablen zu speichern.
from pdf_extractor import extract_pdf_content
Offensichtlich ist die Inhaltsextraktion nicht perfekt, Kopf- und Fußzeilen sowie andere Informationen sind vermischt. Für viele unserer Textanalyseanwendungen wird dies jedoch keine Rolle spielen.
Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial, um mehr darüber zu erfahren!
Das obige ist der detaillierte Inhalt vonSo extrahieren Sie PDF-Text in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!