Python에서 PDF 텍스트를 추출하는 방법

(*-*)浩
풀어 주다: 2019-07-09 10:21:49
원래의
6036명이 탐색했습니다.

이 기사에서는 Python을 사용하여 많은 PDF 파일의 텍스트 내용을 일괄 추출하는 방법을 보여줍니다.

Python에서 PDF 텍스트를 추출하는 방법

먼저 파일 작업을 수행하기 위해 일부 모듈을 읽었습니다. (추천 학습: Python 비디오 튜토리얼)

import glob
import os
로그인 후 복사

demo 디렉토리 아래에는 pdf와 newpdf라는 두 개의 폴더가 있습니다.

pdf 파일이 있는 경로를 pdf 폴더로 지정합니다.

pdf_path = "pdf/"
로그인 후 복사

우리는 모든 PDF 파일의 경로를 얻고 싶습니다. glob을 사용하면 이 기능을 하나의 명령으로 완료할 수 있습니다.

pdfs = glob.glob("{}/*.pdf".format(pdf_path))
로그인 후 복사

우리가 얻은 pdf 파일 경로가 올바른지 확인하세요.

pdfs
로그인 후 복사
['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
'pdf/面向人机协同的移动互联网政务门户探析.pdf']
로그인 후 복사

인증되었습니다. 정확한.

다음으로 pdfminer를 사용하여 pdf 파일에서 콘텐츠를 추출합니다. 도우미 Python 파일 pdf_extractor.py에서 extract_pdf_content 함수를 읽어야 합니다.

from pdf_extractor import extract_pdf_content
로그인 후 복사

이 함수를 사용하여 pdf 파일 목록의 첫 번째 기사에서 내용을 추출하고 해당 텍스트를 content 변수에 저장하려고 합니다.

content = extract_pdf_content(pdfs[0])
로그인 후 복사

분명히 내용 추출이 완벽하지 않고 머리글, 바닥글 및 기타 정보가 섞여 있습니다. 그러나 대부분의 텍스트 분석 목적에서는 이는 중요하지 않습니다.

더 많은 Python 관련 기술 기사를 보려면 Python Tutorial 칼럼을 방문하여 알아보세요!

위 내용은 Python에서 PDF 텍스트를 추출하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!