Comment extraire par lots des informations d'un PDF à l'aide de Python

PHPz
Libérer: 2024-03-02 09:25:16
avant
625 Les gens l'ont consulté

Comment extraire par lots des informations dun PDF à laide de Python

Pour utiliser python pour extraire par lots des informations de pdf, vous pouvez utiliser une bibliothèque dans Python appelée PyPDF2. Voici un exemple simple pour vous aider à commencer à extraire des informations textuelles à partir d'un PDF :

Tout d'abord, vous devez installer la bibliothèque PyPDF2. La bibliothèque peut être installée dans le terminal ou l'invite de commande à l'aide de la commande suivante :

pip install PyPDF2
Copier après la connexion

Ensuite, vous pouvez utiliser le code suivant pour extraire les informations textuelles du PDF :

import PyPDF2

def extract_text_from_pdf(pdf_path):
with open(pdf_path, 'rb') as file:
pdf = PyPDF2.PdfFileReader(file)
text = ""
for page_number in range(pdf.getNumPages()):
page = pdf.getPage(page_number)
text += page.extractText()
return text

# 批量提取PDF中的文本信息
pdf_folder = "pdf文件夹路径"
output_folder = "输出文件夹路径"

import os

for filename in os.listdir(pdf_folder):
if filename.endswith(".pdf"):
pdf_path = os.path.join(pdf_folder, filename)
text = extract_text_from_pdf(pdf_path)

output_path = os.path.join(output_folder, f"{filename}.txt")
with open(output_path, 'w', encoding='utf-8') as file:
file.write(text)
Copier après la connexion

Dans le code ci-dessus, pdf_folder是包含PDF文件的文件夹的路径,output_folder est le chemin du dossier vers lequel le texte extrait sera sorti. Le code parcourra tous les fichiers PDF du dossier, extraira le contenu textuel de chaque fichier et enregistrera le texte extrait dans le fichier texte correspondant.

Veuillez noter que ce code ne peut extraire que des informations en texte brut au format PDF. Si le PDF contient du contenu non textuel tel que des images ou des tableaux, le code peut ne pas être extrait ou extrait correctement.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:lsjlt.com
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal