Cara Bekerja Dengan Dokumen PDF Menggunakan Python-Tutorial Python-php.cn

Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Joseph Gordon-Levitt

Lepaskan： 2025-03-02 09:54:11

asal

506 orang telah melayarinya

How to Work With PDF Documents Using Python

Fail PDF adalah popular untuk keserasian silang platform mereka, dengan kandungan dan susun atur yang konsisten merentasi sistem operasi, peranti membaca dan perisian. Walau bagaimanapun, tidak seperti Python memproses fail teks biasa, fail PDF adalah fail binari dengan struktur yang lebih kompleks dan mengandungi unsur -unsur seperti fon, warna, dan imej.

bernasib baik, tidak sukar untuk memproses fail PDF dengan modul luaran Python. Artikel ini akan menggunakan modul PYPDF2 untuk menunjukkan cara membuka fail PDF, mencetak halaman, dan mengekstrak teks. Untuk penciptaan dan penyuntingan fail PDF, sila rujuk tutorial lain dari saya.

Penyediaan

Teras terletak pada menggunakan modul luaran PYPDF2. Pertama, pasangkannya menggunakan PIP:

PIP adalah sistem pengurusan pakej untuk Python yang memasang dan menguruskan pakej Python, dan banyak pakej yang terdapat dalam Indeks Pakej Python (PYPI).

Jika anda memuat turun python dari python.org, PIP mungkin dipasang secara automatik. Masukkan arahan berikut di terminal untuk memasang PYPDF2:

pip install PyPDF2

Salin selepas log masuk

Untuk menggunakan semua ciri PYPDF2 (termasuk penyulitan, penyahsulitan dan pemprosesan imej), anda boleh menggunakan arahan berikut:

pip install PyPDF2[full]

Salin selepas log masuk

Jika anda hanya memerlukan fungsi penyulitan/penyahsulitan AES, anda boleh menggunakan:

pip install PyPDF2[crypto]

Salin selepas log masuk

PYPDF2 menyokong penyulitan RC4 secara lalai.

~~Asas PYPDF2~~

PYPDF2 adalah perpustakaan sumber terbuka percuma yang menyokong bacaan, penulisan, segmentasi dan penggabungan fail PDF. Tutorial ini menggunakan versi PYPDF2 2.11.1.

Baca fail pdf

Kami akan menggunakan versi PDF Kecantikan dan Binatang pada Projek Gutenberg sebagai fail sampel. Anda boleh memuat turun fail atau menggunakan sebarang fail PDF yang lain.

Kod berikut menunjukkan cara membuka dan membaca fail pdf:

Baris pertama mengimport modul PYPDF2. Kelas

import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)

Salin selepas log masuk

digunakan untuk membaca fail PDF dan mewakili halamannya sebagai objek

. PdfReader Page Dapatkan bilangan halaman:

import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)
    number_of_pages = len(book_reader.pages)
    print(number_of_pages)  # 输出：48

Salin selepas log masuk

Akses langsung ke nombor halaman

Kaedah

untuk mendapatkan nombor halaman:

get_page_number()

import random
from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    page_list = book_reader.pages
    last_page = page_list[-1]
    print(book_reader.get_page_number(last_page))  # 输出：47 (实际为第48页)
    some_page = page_list[random.randint(15, 35)]
    print(book_reader.get_page_number(some_page))  # 输出：随机页码

Salin selepas log masuk

mod halaman dan susun atur halaman

> dan

Properties Return Page Mode and Page Maklumat Susun atur masing -masing:

page_mode page_layout

Properties mengembalikan metadata fail PDF, seperti pengarang, tajuk, masa penciptaan, dan penjana, dan lain -lain:

from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    print(book_reader.page_mode)  # 输出：None
    print(book_reader.page_layout)  # 输出：None

Salin selepas log masuk

metadata

Ringkasan

from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    book_metadata = book_reader.metadata
    print(book_metadata.title)       # 输出：Beauty and the Beast
    print(book_metadata.author)      # 输出：Anonymous
    print(book_metadata.creation_date) # 输出：例如 2006-11-30 01:13:00-08:00
    print(book_metadata.producer)    # 输出：例如 pdfeTeX-1.21a

Salin selepas log masuk

Python memudahkan pemprosesan fail PDF melalui modul PYPDF2. Artikel ini hanya memperkenalkan beberapa fungsi PYPDF2.

Atas ialah kandungan terperinci Cara Bekerja Dengan Dokumen PDF Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!