在 Python 中使用 PDFMiner 从 PDF 文件中提取文本
从 PDF 文件中提取文本是处理结构化数据时的一项常见任务。 Python 提供了 PDFMiner 库来促进此过程。然而,最近对 PDFMiner API 的更新使许多以前的示例变得过时。
为了解决这个问题,让我们探索使用当前版本的 PDFMiner 进行文本提取的工作示例:
<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO def convert_pdf_to_txt(path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos=set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text</code>
This函数将 PDF 文件路径作为输入,并以字符串形式返回提取的文本。它可以处理常见场景,例如受密码保护的 PDF 和多页文档。
通过使用最新版本的 PDFMiner 并实现此功能,您可以在 Python 应用程序中高效地从 PDF 文件中提取文本。
以上是如何使用 Python 中的 PDFMiner 以及最新的 API 更改从 PDF 文件中提取文本?的详细内容。更多信息请关注PHP中文网其他相关文章!