bernasib baik, tidak sukar untuk memproses fail PDF dengan modul luaran Python. Artikel ini akan menggunakan modul PYPDF2 untuk menunjukkan cara membuka fail PDF, mencetak halaman, dan mengekstrak teks. Untuk penciptaan dan penyuntingan fail PDF, sila rujuk tutorial lain dari saya.
Penyediaan
Teras terletak pada menggunakan modul luaran PYPDF2. Pertama, pasangkannya menggunakan PIP:
PIP adalah sistem pengurusan pakej untuk Python yang memasang dan menguruskan pakej Python, dan banyak pakej yang terdapat dalam Indeks Pakej Python (PYPI).Jika anda memuat turun python dari python.org, PIP mungkin dipasang secara automatik. Masukkan arahan berikut di terminal untuk memasang PYPDF2:
pip install PyPDF2
pip install PyPDF2[full]
pip install PyPDF2[crypto]
PYPDF2 adalah perpustakaan sumber terbuka percuma yang menyokong bacaan, penulisan, segmentasi dan penggabungan fail PDF. Tutorial ini menggunakan versi PYPDF2 2.11.1.
Baca fail pdf
Kami akan menggunakan versi PDF Kecantikan dan Binatang pada Projek Gutenberg sebagai fail sampel. Anda boleh memuat turun fail atau menggunakan sebarang fail PDF yang lain.
Kod berikut menunjukkan cara membuka dan membaca fail pdf:
Baris pertama mengimport modul PYPDF2. Kelas
import PyPDF2 with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PyPDF2.PdfReader(book)
. PdfReader
Page
Dapatkan bilangan halaman:
import PyPDF2 with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PyPDF2.PdfReader(book) number_of_pages = len(book_reader.pages) print(number_of_pages) # 输出:48
Kaedah
untuk mendapatkan nombor halaman:
get_page_number()
import random from PyPDF2 import PdfReader with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PdfReader(book) page_list = book_reader.pages last_page = page_list[-1] print(book_reader.get_page_number(last_page)) # 输出:47 (实际为第48页) some_page = page_list[random.randint(15, 35)] print(book_reader.get_page_number(some_page)) # 输出:随机页码
>
page_mode
page_layout
from PyPDF2 import PdfReader with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PdfReader(book) print(book_reader.page_mode) # 输出:None print(book_reader.page_layout) # 输出:None
metadata
from PyPDF2 import PdfReader with open('beauty-and-the-beast.pdf', 'rb') as book: book_reader = PdfReader(book) book_metadata = book_reader.metadata print(book_metadata.title) # 输出:Beauty and the Beast print(book_metadata.author) # 输出:Anonymous print(book_metadata.creation_date) # 输出:例如 2006-11-30 01:13:00-08:00 print(book_metadata.producer) # 输出:例如 pdfeTeX-1.21a
Python memudahkan pemprosesan fail PDF melalui modul PYPDF2. Artikel ini hanya memperkenalkan beberapa fungsi PYPDF2.
Atas ialah kandungan terperinci Cara Bekerja Dengan Dokumen PDF Menggunakan Python. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!