So extrahieren Sie Informationen stapelweise aus PDF mit Python

PHPz
Freigeben: 2024-03-02 09:25:16
nach vorne
515 Leute haben es durchsucht

So extrahieren Sie Informationen stapelweise aus PDF mit Python

Um Python zum Batch-Extrahieren von Informationen aus PDF zu verwenden, können Sie eine Bibliothek von Python namens PyPDF2 verwenden. Hier ist ein einfaches Beispiel, das Ihnen beim Extrahieren von Textinformationen aus PDF helfen soll:

Zuerst müssen Sie die PyPDF2-Bibliothek installieren. Die Bibliothek kann im Terminal oder in der Eingabeaufforderung mit dem folgenden Befehl installiert werden:

pip install PyPDF2
Nach dem Login kopieren

Dann können Sie den folgenden Code verwenden, um Textinformationen aus PDF zu extrahieren:

import PyPDF2

def extract_text_from_pdf(pdf_path):
with open(pdf_path, 'rb') as file:
pdf = PyPDF2.PdfFileReader(file)
text = ""
for page_number in range(pdf.getNumPages()):
page = pdf.getPage(page_number)
text += page.extractText()
return text

# 批量提取PDF中的文本信息
pdf_folder = "pdf文件夹路径"
output_folder = "输出文件夹路径"

import os

for filename in os.listdir(pdf_folder):
if filename.endswith(".pdf"):
pdf_path = os.path.join(pdf_folder, filename)
text = extract_text_from_pdf(pdf_path)

output_path = os.path.join(output_folder, f"{filename}.txt")
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)
Nach dem Login kopieren

Im obigen Code ist pdf_folder是包含PDF文件的文件夹的路径,output_folder der Ordnerpfad, in den der extrahierte Text ausgegeben wird. Der Code durchläuft alle PDF-Dateien im Ordner, extrahiert den Textinhalt jeder Datei und speichert den extrahierten Text in der entsprechenden Textdatei.

Bitte beachten Sie, dass dieser Code nur reine Textinformationen in PDFs extrahieren kann. Wenn das PDF Nicht-Text-Inhalte wie Bilder oder Tabellen enthält, kann der Code möglicherweise nicht richtig extrahiert werden.

Das obige ist der detaillierte Inhalt vonSo extrahieren Sie Informationen stapelweise aus PDF mit Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:lsjlt.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!