使用过pypdf 对英文pdf文档处理比较简单,但是对中文的支持好像不太好
使用过textract 看文档支持的格式比较多方法也比较简单,但是老师出错
import textract
import pyPdf
import pdf2text
import pdfminer
import chardet
text = textract.process("F:ll.pdf",method = 'pdfminer')
print text
import textract
import pyPdf
import pdfminer
import chardet
text = textract.process("F:ll.pdf",method = 'pdfminer')
print text
少使用了pdf2text库,但是出错情况好像不一样。
pdfminer库还没看过,看着好像麻烦一些, 求解一下解析提取中文的pdf的方法。谢谢
pdfminer que j'utilisais auparavant
pip install pdfminer