이 기사에서는 Python을 사용하여 많은 PDF 파일의 텍스트 내용을 일괄 추출하는 방법을 보여줍니다.
먼저 파일 작업을 수행하기 위해 일부 모듈을 읽었습니다. (추천 학습: Python 비디오 튜토리얼)
import glob import os
demo 디렉토리 아래에는 pdf와 newpdf라는 두 개의 폴더가 있습니다.
pdf 파일이 있는 경로를 pdf 폴더로 지정합니다.
pdf_path = "pdf/"
우리는 모든 PDF 파일의 경로를 얻고 싶습니다. glob을 사용하면 이 기능을 하나의 명령으로 완료할 수 있습니다.
pdfs = glob.glob("{}/*.pdf".format(pdf_path))
우리가 얻은 pdf 파일 경로가 올바른지 확인하세요.
pdfs
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf', 'pdf/面向影子分析的社交媒体竞争情报搜集.pdf', 'pdf/面向人机协同的移动互联网政务门户探析.pdf']
인증되었습니다. 정확한.
다음으로 pdfminer를 사용하여 pdf 파일에서 콘텐츠를 추출합니다. 도우미 Python 파일 pdf_extractor.py에서 extract_pdf_content 함수를 읽어야 합니다.
from pdf_extractor import extract_pdf_content
이 함수를 사용하여 pdf 파일 목록의 첫 번째 기사에서 내용을 추출하고 해당 텍스트를 content 변수에 저장하려고 합니다.
content = extract_pdf_content(pdfs[0])
분명히 내용 추출이 완벽하지 않고 머리글, 바닥글 및 기타 정보가 섞여 있습니다. 그러나 대부분의 텍스트 분석 목적에서는 이는 중요하지 않습니다.
더 많은 Python 관련 기술 기사를 보려면 Python Tutorial 칼럼을 방문하여 알아보세요!
위 내용은 Python에서 PDF 텍스트를 추출하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!