Rumah > Tutorial sistem > LINUX > Kira watak dan perkataan dalam fail pdf menggunakan python di linux

Kira watak dan perkataan dalam fail pdf menggunakan python di linux

Jennifer Aniston
Lepaskan: 2025-03-14 11:08:12
asal
380 orang telah melayarinya

Skrip Python ini dengan cekap mengira perkataan dan watak dalam fail PDF, yang menawarkan fleksibiliti dalam mengendalikan aksara baru. Mari kita meneroka fungsinya dan penggunaannya.

Menganalisis kandungan PDF dengan Python

Mengekstrak data teks dari PDFs dan melaksanakan kiraan perkataan/aksara mudah dicapai menggunakan perpustakaan Python's PyPDF2 . Skrip ini memanfaatkan PyPDF2 untuk memproses fail PDF, menyediakan laporan analisis yang komprehensif.

Kerosakan skrip:

Skrip, pdfcwcount.py , terdiri daripada tiga fungsi teras:

  1. extract_text_from_pdf(file_path) : Fungsi ini membaca fail pdf yang ditentukan, mengekstrak teks dari setiap halaman, dan menggabungkannya ke dalam satu rentetan. Ia dengan anggun mengendalikan pengecualian FileNotFoundError .

  2. count_words_in_text(text) : Fungsi ini hanya memisahkan rentetan teks input ke dalam kata -kata (menggunakan ruang sebagai pembatas) dan mengembalikan kiraan perkataan.

  3. count_characters_in_text(text, include_newlines=True) : Fungsi ini mengira aksara. Parameter include_newlines menawarkan kawalan ke atas sama ada aksara baru ( \n ) dimasukkan ke dalam kiraan.

Bahagian utama skrip menggunakan modul argparse untuk mengendalikan argumen baris arahan, yang membolehkan pengguna menentukan laluan fail PDF. Selepas mengekstrak teks, ia mengira bilangan perkataan dan watak (dengan dan tanpa garis baru) dan membentangkan laporan yang diformat.

Pemasangan dan Penggunaan:

  1. Pasang PYPDF2: Gunakan PIP: pip install PyPDF2

  2. Jalankan skrip: Laksanakan skrip dari terminal anda, menyediakan laluan fail PDF sebagai hujah:

     python pdfcwcount.py /path/to/your/file.pdf
    Salin selepas log masuk

    Ganti /path/to/your/file.pdf dengan laluan sebenar ke fail pdf anda.

Output Contoh:

Skrip menghasilkan laporan yang serupa dengan ini:

 <code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>
Salin selepas log masuk

Kira watak dan perkataan dalam fail pdf menggunakan python di linux

Kesimpulan:

Skrip Python ini menyediakan penyelesaian yang mantap dan cekap untuk menganalisis kandungan teks fail PDF. Strukturnya yang jelas dan antara muka baris membuatnya mesra pengguna dan disesuaikan dengan pelbagai keperluan. Pilihan untuk memasukkan atau mengecualikan aksara Newline menambah fleksibiliti yang berharga untuk keperluan analisis yang berbeza.

Atas ialah kandungan terperinci Kira watak dan perkataan dalam fail pdf menggunakan python di linux. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan