Maison > développement back-end > Tutoriel Python > Comment extraire du texte PDF en python

Comment extraire du texte PDF en python

(*-*)浩
Libérer: 2019-07-09 10:21:49
original
6116 Les gens l'ont consulté

Cet article vous montre comment utiliser Python pour extraire le contenu textuel de nombreux fichiers PDF par lots.

Comment extraire du texte PDF en python

Tout d'abord, nous lisons certains modules pour effectuer des opérations sur les fichiers. (Apprentissage recommandé : Tutoriel vidéo Python)

import glob
import os
Copier après la connexion

Il y a deux dossiers dans le répertoire de démonstration, à savoir pdf et newpdf.

Nous spécifions le chemin où se trouve le fichier pdf comme dossier pdf.

pdf_path = "pdf/"
Copier après la connexion

Nous voulons obtenir le chemin de tous les fichiers pdf. Avec glob, cette fonction peut être complétée avec une seule commande.

pdfs = glob.glob("{}/*.pdf".format(pdf_path))
Copier après la connexion

Vérifiez si le chemin du fichier pdf que nous avons obtenu est correct.

pdfs
Copier après la connexion
rrree

Vérifié. Précis.

Ensuite, nous utilisons pdfminer pour extraire le contenu des fichiers PDF. Nous devons lire la fonction extract_pdf_content du fichier d'assistance Python pdf_extractor.py.

['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']
Copier après la connexion

En utilisant cette fonction, nous essayons d'extraire le contenu du premier article de la liste des fichiers pdf et d'enregistrer le texte dans la variable de contenu.

from pdf_extractor import extract_pdf_content
Copier après la connexion

Évidemment, l'extraction du contenu n'est pas parfaite, les en-têtes, pieds de page et autres informations s'y mélangent. Cependant, pour bon nombre de nos objectifs d’analyse de texte, cela n’a pas d’importance.

Pour plus d'articles techniques liés à Python, veuillez visiter la colonne Tutoriel Python pour apprendre !

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal