> 백엔드 개발 > 파이썬 튜토리얼 > Python을 사용하여 PDF 문서를 사용하는 방법

Python을 사용하여 PDF 문서를 사용하는 방법

Joseph Gordon-Levitt
풀어 주다: 2025-03-02 09:54:11
원래의
506명이 탐색했습니다.

How to Work With PDF Documents Using Python PDF 파일은 운영 체제, 읽기 장치 및 소프트웨어 전체에서 일관된 컨텐츠 및 레이아웃과 함께 크로스 플랫폼 호환성에 인기가 있습니다. 그러나 Python Processing Plain Text 파일과 달리 PDF 파일은 더 복잡한 구조를 가진 이진 파일이며 글꼴, 색상 및 이미지와 같은 요소를 포함합니다.

운 좋게도 Python의 외부 모듈로 PDF 파일을 처리하는 것은 어렵지 않습니다. 이 기사는 PYPDF2 모듈을 사용하여 PDF 파일을 열고 페이지를 인쇄하고 텍스트를 추출하는 방법을 보여줍니다. PDF 파일의 생성 및 편집에 대해서는 저의 다른 튜토리얼을 참조하십시오.

준비

핵심은 외부 모듈 PYPDF2를 사용하는 데 있습니다. 먼저 PIP :

를 사용하여 설치하십시오

PIP는 Python 패키지를 설치하고 관리하는 Python 용 패키지 관리 시스템이며 많은 패키지가 Python 패키지 인덱스 (PYPI)에 있습니다. python.org에서 python을 다운로드하면 PIP가 자동으로 설치 될 수 있습니다. PYPDF2를 설치하려면 터미널에 다음 명령을 입력하십시오.

PYPDF2의 모든 기능 (암호화, 암호 해독 및 이미지 처리 포함)을 사용하려면 다음 명령을 사용할 수 있습니다.

AES 암호화/암호 해독 기능 만 필요하면 다음을 사용할 수 있습니다.

PYPDF2는 기본적으로 RC4 암호화를 지원합니다.

pypdf2 기본

PDF 파일의 읽기, 쓰기, 세분화 및 병합을 지원하는 무료 오픈 소스 라이브러리입니다. 이 튜토리얼은 PYPDF2 버전 2.11.1을 사용합니다.

PDF 파일을 읽으십시오
pip install PyPDF2
로그인 후 복사
우리는 Project Gutenberg의 Beauty and the Beast PDF 버전을 샘플 파일로 사용할 것입니다. 파일을 다운로드하거나 다른 PDF 파일을 사용할 수 있습니다.

다음 코드는 PDF 파일을 열고 읽는 방법을 보여줍니다.

첫 번째 줄은 PYPDF2 모듈을 가져옵니다. 클래스는 PDF 파일을 읽고 해당 페이지를 pip install PyPDF2[full] 페이지 수를 얻으십시오 :

페이지 번호 에 직접 액세스하십시오 페이지 번호를 얻는 메소드 :

pip install PyPDF2[crypto]
로그인 후 복사

페이지 모드 및 페이지 레이아웃

속성은 각각 페이지 모드 및 페이지 레이아웃 정보를 반환합니다. 속성 저자, 제목, 생성 시간 및 생성기 등과 같은 PDF 파일의 메타 데이터를 반환합니다.

요약

Python은 PYPDF2 모듈을 통해 PDF 파일의 처리를 단순화합니다. 이 기사는 PYPDF2의 일부 기능 만 소개합니다. 자세한 내용은 공식 PYPDF2 문서를 참조하십시오.

위 내용은 Python을 사용하여 PDF 문서를 사용하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿