Comment extraire du texte de fichiers PDF à l'aide de PDFMiner en Python avec les dernières modifications de l'API ?-Tutoriel Python-php.cn

Comment extraire du texte de fichiers PDF à l'aide de PDFMiner en Python avec les dernières modifications de l'API ?

Linda Hamilton

Libérer： 2024-10-17 14:23:29

original

737 Les gens l'ont consulté

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

Extraction de texte à partir de fichiers PDF à l'aide de PDFMiner en Python

Extraire du texte à partir d'un fichier PDF est une tâche courante lorsque l'on travaille avec des données structurées. Python fournit la bibliothèque PDFMiner pour faciliter ce processus. Cependant, les mises à jour récentes de l'API PDFMiner ont rendu obsolètes de nombreux exemples précédents.

Pour résoudre ce problème, explorons un exemple fonctionnel d'extraction de texte à l'aide de la version actuelle de PDFMiner :

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

Copier après la connexion

Ceci La fonction prend un chemin de fichier PDF en entrée et renvoie le texte extrait sous forme de chaîne. Il gère des scénarios courants tels que les PDF protégés par mot de passe et les documents de plusieurs pages.

En utilisant la dernière version de PDFMiner et en implémentant cette fonction, vous pouvez extraire efficacement le texte des fichiers PDF dans vos applications Python.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!