Skrip Python ini dengan cekap mengira perkataan dan watak dalam fail PDF, yang menawarkan fleksibiliti dalam mengendalikan aksara baru. Mari kita meneroka fungsinya dan penggunaannya.
Menganalisis kandungan PDF dengan Python
Mengekstrak data teks dari PDFs dan melaksanakan kiraan perkataan/aksara mudah dicapai menggunakan perpustakaan Python's PyPDF2
. Skrip ini memanfaatkan PyPDF2
untuk memproses fail PDF, menyediakan laporan analisis yang komprehensif.
Kerosakan skrip:
Skrip, pdfcwcount.py
, terdiri daripada tiga fungsi teras:
extract_text_from_pdf(file_path)
: Fungsi ini membaca fail pdf yang ditentukan, mengekstrak teks dari setiap halaman, dan menggabungkannya ke dalam satu rentetan. Ia dengan anggun mengendalikan pengecualian FileNotFoundError
.
count_words_in_text(text)
: Fungsi ini hanya memisahkan rentetan teks input ke dalam kata -kata (menggunakan ruang sebagai pembatas) dan mengembalikan kiraan perkataan.
count_characters_in_text(text, include_newlines=True)
: Fungsi ini mengira aksara. Parameter include_newlines
menawarkan kawalan ke atas sama ada aksara baru ( \n
) dimasukkan ke dalam kiraan.
Bahagian utama skrip menggunakan modul argparse
untuk mengendalikan argumen baris arahan, yang membolehkan pengguna menentukan laluan fail PDF. Selepas mengekstrak teks, ia mengira bilangan perkataan dan watak (dengan dan tanpa garis baru) dan membentangkan laporan yang diformat.
Pemasangan dan Penggunaan:
Pasang PYPDF2: Gunakan PIP: pip install PyPDF2
Jalankan skrip: Laksanakan skrip dari terminal anda, menyediakan laluan fail PDF sebagai hujah:
python pdfcwcount.py /path/to/your/file.pdf
Ganti /path/to/your/file.pdf
dengan laluan sebenar ke fail pdf anda.
Output Contoh:
Skrip menghasilkan laporan yang serupa dengan ini:
<code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>
Kesimpulan:
Skrip Python ini menyediakan penyelesaian yang mantap dan cekap untuk menganalisis kandungan teks fail PDF. Strukturnya yang jelas dan antara muka baris membuatnya mesra pengguna dan disesuaikan dengan pelbagai keperluan. Pilihan untuk memasukkan atau mengecualikan aksara Newline menambah fleksibiliti yang berharga untuk keperluan analisis yang berbeza.
Atas ialah kandungan terperinci Kira watak dan perkataan dalam fail pdf menggunakan python di linux. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!