Extraction de texte à partir de fichiers PDF à l'aide de PDFMiner en Python
Extraire du texte à partir d'un fichier PDF est une tâche courante lorsque l'on travaille avec des données structurées. Python fournit la bibliothèque PDFMiner pour faciliter ce processus. Cependant, les mises à jour récentes de l'API PDFMiner ont rendu obsolètes de nombreux exemples précédents.
Pour résoudre ce problème, explorons un exemple fonctionnel d'extraction de texte à l'aide de la version actuelle de PDFMiner :
<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text</code>
Ceci La fonction prend un chemin de fichier PDF en entrée et renvoie le texte extrait sous forme de chaîne. Il gère des scénarios courants tels que les PDF protégés par mot de passe et les documents de plusieurs pages.
En utilisant la dernière version de PDFMiner et en implémentant cette fonction, vous pouvez extraire efficacement le texte des fichiers PDF dans vos applications Python.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!