최신 API 변경 사항으로 Python에서 PDFMiner를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?-파이썬 튜토리얼-php.cn

최신 API 변경 사항으로 Python에서 PDFMiner를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?

Linda Hamilton

풀어 주다： 2024-10-17 14:23:29

원래의

726명이 탐색했습니다.

How to Extract Text from PDF Files using PDFMiner in Python with the Latest API Changes?

Python에서 PDFMiner를 사용하여 PDF 파일에서 텍스트 추출

구조화된 데이터로 작업할 때 PDF 파일에서 텍스트를 추출하는 것은 일반적인 작업입니다. Python은 이 프로세스를 용이하게 하기 위해 PDFMiner 라이브러리를 제공합니다. 그러나 최근 PDFMiner API 업데이트로 인해 이전의 많은 예제가 더 이상 사용되지 않게 되었습니다.

이 문제를 해결하기 위해 PDFMiner의 현재 버전을 사용하여 텍스트 추출의 실제 예제를 살펴보겠습니다.

<code class="python">from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from io import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = open(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ""
    maxpages = 0
    caching = True
    pagenos=set()

    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,caching=caching, check_extractable=True):
        interpreter.process_page(page)

    text = retstr.getvalue()

    fp.close()
    device.close()
    retstr.close()
    return text</code>

로그인 후 복사

이것은 함수는 PDF 파일 경로를 입력으로 사용하고 추출된 텍스트를 문자열로 반환합니다. 비밀번호로 보호된 PDF 및 여러 페이지로 구성된 문서와 같은 일반적인 시나리오를 처리합니다.

최신 버전의 PDFMiner를 사용하고 이 기능을 구현하면 Python 애플리케이션의 PDF 파일에서 텍스트를 효율적으로 추출할 수 있습니다.

위 내용은 최신 API 변경 사항으로 Python에서 PDFMiner를 사용하여 PDF 파일에서 텍스트를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!