Cet article vous montre comment utiliser Python pour extraire le contenu textuel de nombreux fichiers PDF par lots.
Tout d'abord, nous lisons certains modules pour effectuer des opérations sur les fichiers. (Apprentissage recommandé : Tutoriel vidéo Python)
import glob import os
Il y a deux dossiers dans le répertoire de démonstration, à savoir pdf et newpdf.
Nous spécifions le chemin où se trouve le fichier pdf comme dossier pdf.
pdf_path = "pdf/"
Nous voulons obtenir le chemin de tous les fichiers pdf. Avec glob, cette fonction peut être complétée avec une seule commande.
pdfs = glob.glob("{}/*.pdf".format(pdf_path))
Vérifiez si le chemin du fichier pdf que nous avons obtenu est correct.
pdfs
Vérifié. Précis.
Ensuite, nous utilisons pdfminer pour extraire le contenu des fichiers PDF. Nous devons lire la fonction extract_pdf_content du fichier d'assistance Python pdf_extractor.py.
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf', 'pdf/面向影子分析的社交媒体竞争情报搜集.pdf', 'pdf/面向人机协同的移动互联网政务门户探析.pdf']
En utilisant cette fonction, nous essayons d'extraire le contenu du premier article de la liste des fichiers pdf et d'enregistrer le texte dans la variable de contenu.
from pdf_extractor import extract_pdf_content
Évidemment, l'extraction du contenu n'est pas parfaite, les en-têtes, pieds de page et autres informations s'y mélangent. Cependant, pour bon nombre de nos objectifs d’analyse de texte, cela n’a pas d’importance.
Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!