Comment extraire du texte de fichiers PDF à l'aide de PDFMiner en Python avec les dernières modifications de l'API ?

Linda Hamilton
Libérer: 2024-10-17 14:23:29
original
673 Les gens l'ont consulté

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

Extraction de texte à partir de fichiers PDF à l'aide de PDFMiner en Python

Extraire du texte à partir d'un fichier PDF est une tâche courante lorsque l'on travaille avec des données structurées. Python fournit la bibliothèque PDFMiner pour faciliter ce processus. Cependant, les mises à jour récentes de l'API PDFMiner ont rendu obsolètes de nombreux exemples précédents.

Pour résoudre ce problème, explorons un exemple fonctionnel d'extraction de texte à l'aide de la version actuelle de PDFMiner :

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>
Copier après la connexion

Ceci La fonction prend un chemin de fichier PDF en entrée et renvoie le texte extrait sous forme de chaîne. Il gère des scénarios courants tels que les PDF protégés par mot de passe et les documents de plusieurs pages.

En utilisant la dernière version de PDFMiner et en implémentant cette fonction, vous pouvez extraire efficacement le texte des fichiers PDF dans vos applications Python.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal