python如何提取PDF文本

(*-*)浩
Lepaskan: 2019-07-09 10:21:49
asal
6036 orang telah melayarinya

本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来.

python如何提取PDF文本

首先,我们读入一些模块,以进行文件操作。(推荐学习:Python视频教程

import glob
import os
Salin selepas log masuk

演示目录下,有两个文件夹,分别是pdf和newpdf。

我们指定 pdf 文件所在路径为其中的pdf文件夹。

pdf_path = "pdf/"
Salin selepas log masuk

我们希望获得所有 pdf 文件的路径。用glob,一条命令就能完成这个功能。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))
Salin selepas log masuk

看看我们获得的 pdf 文件路径是否正确。

pdfs
Salin selepas log masuk
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']
Salin selepas log masuk

经验证。准确无误。

下面我们利用 pdfminer 来从 pdf 文件中抽取内容。我们需要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。

from pdf_extractor import extract_pdf_content
Salin selepas log masuk

用这个函数,我们尝试从 pdf 文件列表中的第一篇里,抽取内容,并且把文本保存在 content 变量里。

content = extract_pdf_content(pdfs[0])
Salin selepas log masuk

显然,内容抽取并不完美,页眉页脚等信息都混了进来。不过,对于我们的许多文本分析用途来说,这无关紧要。

更多Python相关技术文章,请访问Python教程栏目进行学习!

Atas ialah kandungan terperinci python如何提取PDF文本. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!