Rumah > pembangunan bahagian belakang > Tutorial Python > Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Cara Bekerja Dengan Dokumen PDF Menggunakan Python

Joseph Gordon-Levitt
Lepaskan: 2025-03-02 09:54:11
asal
506 orang telah melayarinya

How to Work With PDF Documents Using Python

Fail PDF adalah popular untuk keserasian silang platform mereka, dengan kandungan dan susun atur yang konsisten merentasi sistem operasi, peranti membaca dan perisian. Walau bagaimanapun, tidak seperti Python memproses fail teks biasa, fail PDF adalah fail binari dengan struktur yang lebih kompleks dan mengandungi unsur -unsur seperti fon, warna, dan imej.

bernasib baik, tidak sukar untuk memproses fail PDF dengan modul luaran Python. Artikel ini akan menggunakan modul PYPDF2 untuk menunjukkan cara membuka fail PDF, mencetak halaman, dan mengekstrak teks. Untuk penciptaan dan penyuntingan fail PDF, sila rujuk tutorial lain dari saya.

Penyediaan

Teras terletak pada menggunakan modul luaran PYPDF2. Pertama, pasangkannya menggunakan PIP:

PIP adalah sistem pengurusan pakej untuk Python yang memasang dan menguruskan pakej Python, dan banyak pakej yang terdapat dalam Indeks Pakej Python (PYPI).

Jika anda memuat turun python dari python.org, PIP mungkin dipasang secara automatik. Masukkan arahan berikut di terminal untuk memasang PYPDF2:

pip install PyPDF2
Salin selepas log masuk
Untuk menggunakan semua ciri PYPDF2 (termasuk penyulitan, penyahsulitan dan pemprosesan imej), anda boleh menggunakan arahan berikut:

pip install PyPDF2[full]
Salin selepas log masuk
Jika anda hanya memerlukan fungsi penyulitan/penyahsulitan AES, anda boleh menggunakan:

pip install PyPDF2[crypto]
Salin selepas log masuk
PYPDF2 menyokong penyulitan RC4 secara lalai.

Asas PYPDF2

PYPDF2 adalah perpustakaan sumber terbuka percuma yang menyokong bacaan, penulisan, segmentasi dan penggabungan fail PDF. Tutorial ini menggunakan versi PYPDF2 2.11.1.

Baca fail pdf

Kami akan menggunakan versi PDF Kecantikan dan Binatang pada Projek Gutenberg sebagai fail sampel. Anda boleh memuat turun fail atau menggunakan sebarang fail PDF yang lain.

Kod berikut menunjukkan cara membuka dan membaca fail pdf:

Baris pertama mengimport modul PYPDF2. Kelas
import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)
Salin selepas log masuk
digunakan untuk membaca fail PDF dan mewakili halamannya sebagai objek

. PdfReader Page Dapatkan bilangan halaman:

import PyPDF2

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PyPDF2.PdfReader(book)
    number_of_pages = len(book_reader.pages)
    print(number_of_pages)  # 输出:48
Salin selepas log masuk
Akses langsung ke nombor halaman

Kaedah

untuk mendapatkan nombor halaman:

get_page_number()

import random
from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    page_list = book_reader.pages
    last_page = page_list[-1]
    print(book_reader.get_page_number(last_page))  # 输出:47 (实际为第48页)
    some_page = page_list[random.randint(15, 35)]
    print(book_reader.get_page_number(some_page))  # 输出:随机页码
Salin selepas log masuk
mod halaman dan susun atur halaman

> dan

Properties Return Page Mode and Page Maklumat Susun atur masing -masing:

page_mode page_layout

Properties mengembalikan metadata fail PDF, seperti pengarang, tajuk, masa penciptaan, dan penjana, dan lain -lain:
from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    print(book_reader.page_mode)  # 输出:None
    print(book_reader.page_layout)  # 输出:None
Salin selepas log masuk

metadata

Ringkasan
from PyPDF2 import PdfReader

with open('beauty-and-the-beast.pdf', 'rb') as book:
    book_reader = PdfReader(book)
    book_metadata = book_reader.metadata
    print(book_metadata.title)       # 输出:Beauty and the Beast
    print(book_metadata.author)      # 输出:Anonymous
    print(book_metadata.creation_date) # 输出:例如 2006-11-30 01:13:00-08:00
    print(book_metadata.producer)    # 输出:例如 pdfeTeX-1.21a
Salin selepas log masuk

Python memudahkan pemprosesan fail PDF melalui modul PYPDF2. Artikel ini hanya memperkenalkan beberapa fungsi PYPDF2.

Atas ialah kandungan terperinci Cara Bekerja Dengan Dokumen PDF Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan