Heim > Backend-Entwicklung > Python-Tutorial > So extrahieren Sie PDF-Text in Python

So extrahieren Sie PDF-Text in Python

(*-*)浩
Freigeben: 2019-07-09 10:21:49
Original
6121 Leute haben es durchsucht

Dieser Artikel zeigt Ihnen, wie Sie mit Python den Textinhalt vieler PDF-Dateien stapelweise extrahieren.

So extrahieren Sie PDF-Text in Python

Zuerst lesen wir einige Module ein, um Dateioperationen durchzuführen. (Empfohlenes Lernen: Python-Video-Tutorial)

import glob
import os
Nach dem Login kopieren

Es gibt zwei Ordner im Demo-Verzeichnis, nämlich pdf und newpdf.

Wir geben als PDF-Ordner den Pfad an, in dem sich die PDF-Datei befindet.

pdf_path = "pdf/"
Nach dem Login kopieren

Wir wollen den Pfad aller PDF-Dateien erhalten. Mit glob kann diese Funktion mit einem Befehl ausgeführt werden.

pdfs = glob.glob("{}/*.pdf".format(pdf_path))
Nach dem Login kopieren

Überprüfen Sie, ob der von uns erhaltene PDF-Dateipfad korrekt ist.

pdfs
Nach dem Login kopieren
rrree

Verifiziert. Genau.

Als nächstes verwenden wir pdfminer, um Inhalte aus PDF-Dateien zu extrahieren. Wir müssen die Funktion extract_pdf_content aus der Python-Hilfsdatei pdf_extractor.py einlesen.

['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']
Nach dem Login kopieren

Mit dieser Funktion versuchen wir, den Inhalt aus dem ersten Artikel in der PDF-Dateiliste zu extrahieren und den Text in der Inhaltsvariablen zu speichern.

from pdf_extractor import extract_pdf_content
Nach dem Login kopieren

Offensichtlich ist die Inhaltsextraktion nicht perfekt, Kopf- und Fußzeilen sowie andere Informationen sind vermischt. Für viele unserer Textanalyseanwendungen wird dies jedoch keine Rolle spielen.

Weitere technische Artikel zum Thema Python finden Sie in der Spalte Python-Tutorial, um mehr darüber zu erfahren!

Das obige ist der detaillierte Inhalt vonSo extrahieren Sie PDF-Text in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage