Kira watak dan perkataan dalam fail pdf menggunakan python di linux-LINUX-php.cn

Rumah

Tutorial sistem

LINUX

Kira watak dan perkataan dalam fail pdf menggunakan python di linux

Jennifer Aniston

Mar 14, 2025 am 11:08 AM

Skrip Python ini dengan cekap mengira perkataan dan watak dalam fail PDF, yang menawarkan fleksibiliti dalam mengendalikan aksara baru. Mari kita meneroka fungsinya dan penggunaannya.

Menganalisis kandungan PDF dengan Python

Mengekstrak data teks dari PDFs dan melaksanakan kiraan perkataan/aksara mudah dicapai menggunakan perpustakaan Python's PyPDF2 . Skrip ini memanfaatkan PyPDF2 untuk memproses fail PDF, menyediakan laporan analisis yang komprehensif.

Kerosakan skrip:

Skrip, pdfcwcount.py , terdiri daripada tiga fungsi teras:

extract_text_from_pdf(file_path) : Fungsi ini membaca fail pdf yang ditentukan, mengekstrak teks dari setiap halaman, dan menggabungkannya ke dalam satu rentetan. Ia dengan anggun mengendalikan pengecualian FileNotFoundError .
count_words_in_text(text) : Fungsi ini hanya memisahkan rentetan teks input ke dalam kata -kata (menggunakan ruang sebagai pembatas) dan mengembalikan kiraan perkataan.
count_characters_in_text(text, include_newlines=True) : Fungsi ini mengira aksara. Parameter include_newlines menawarkan kawalan ke atas sama ada aksara baru ( \n ) dimasukkan ke dalam kiraan.

Bahagian utama skrip menggunakan modul argparse untuk mengendalikan argumen baris arahan, yang membolehkan pengguna menentukan laluan fail PDF. Selepas mengekstrak teks, ia mengira bilangan perkataan dan watak (dengan dan tanpa garis baru) dan membentangkan laporan yang diformat.

Pemasangan dan Penggunaan:

Pasang PYPDF2: Gunakan PIP: pip install PyPDF2
Jalankan skrip: Laksanakan skrip dari terminal anda, menyediakan laluan fail PDF sebagai hujah:
```
 python pdfcwcount.py /path/to/your/file.pdf
```
Salin selepas log masuk
Ganti /path/to/your/file.pdf dengan laluan sebenar ke fail pdf anda.

Output Contoh:

Skrip menghasilkan laporan yang serupa dengan ini:

 <code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>

Salin selepas log masuk

Kira watak dan perkataan dalam fail pdf menggunakan python di linux

Kesimpulan:

Skrip Python ini menyediakan penyelesaian yang mantap dan cekap untuk menganalisis kandungan teks fail PDF. Strukturnya yang jelas dan antara muka baris membuatnya mesra pengguna dan disesuaikan dengan pelbagai keperluan. Pilihan untuk memasukkan atau mengecualikan aksara Newline menambah fleksibiliti yang berharga untuk keperluan analisis yang berbeza.

Atas ialah kandungan terperinci Kira watak dan perkataan dalam fail pdf menggunakan python di linux. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang lalu By DDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

1 bulan yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7889

Tutorial Java

1650

Tutorial CakePHP

1411

Tutorial Laravel

1302

Tutorial PHP

1248

Tunjukkan Lagi

Related knowledge

Untuk apa yang paling baik digunakan oleh Linux? Apr 03, 2025 am 12:11 AM

Linux paling baik digunakan sebagai pengurusan pelayan, sistem tertanam dan persekitaran desktop. 1) Dalam pengurusan pelayan, Linux digunakan untuk menjadi tuan rumah laman web, pangkalan data, dan aplikasi, menyediakan kestabilan dan kebolehpercayaan. 2) Dalam sistem tertanam, Linux digunakan secara meluas di rumah pintar dan sistem elektronik automotif kerana fleksibiliti dan kestabilannya. 3) Dalam persekitaran desktop, Linux menyediakan aplikasi yang kaya dan prestasi yang cekap.

Apakah 5 komponen asas Linux? Apr 06, 2025 am 12:05 AM

Lima komponen asas Linux adalah: 1. Kernel, menguruskan sumber perkakasan; 2. Perpustakaan sistem, menyediakan fungsi dan perkhidmatan; 3. Shell, antara muka pengguna untuk berinteraksi dengan sistem; 4. Sistem fail, menyimpan dan menganjurkan data; 5. Aplikasi, menggunakan sumber sistem untuk melaksanakan fungsi.

Apakah Pentadbiran Linux Asas? Apr 02, 2025 pm 02:09 PM

Pengurusan Sistem Linux memastikan kestabilan sistem, kecekapan dan keselamatan melalui konfigurasi, pemantauan dan penyelenggaraan. 1. Perintah Shell Master seperti Top dan Systemctl. 2. Gunakan apt atau yum untuk menguruskan pakej perisian. 3. Tulis skrip automatik untuk meningkatkan kecekapan. 4. Kesilapan debug biasa seperti masalah kebenaran. 5. Mengoptimumkan prestasi melalui alat pemantauan.

Bagaimana untuk belajar asas Linux? Apr 10, 2025 am 09:32 AM

Kaedah untuk pembelajaran asas Linux dari awal termasuk: 1. Memahami sistem fail dan antara muka baris perintah, 2. Master arahan asas seperti LS, CD, MKDIR, 3.

Apakah yang paling banyak digunakan Linux? Apr 09, 2025 am 12:02 AM

Linux digunakan secara meluas dalam pelayan, sistem tertanam dan persekitaran desktop. 1) Dalam bidang pelayan, Linux telah menjadi pilihan yang ideal untuk menganjurkan laman web, pangkalan data dan aplikasi kerana kestabilan dan keselamatannya. 2) Dalam sistem tertanam, Linux popular untuk penyesuaian dan kecekapan yang tinggi. 3) Di persekitaran desktop, Linux menyediakan pelbagai persekitaran desktop untuk memenuhi keperluan pengguna yang berbeza.

Apakah peranti Linux? Apr 05, 2025 am 12:04 AM

Peranti Linux adalah peranti perkakasan yang menjalankan sistem operasi Linux, termasuk pelayan, komputer peribadi, telefon pintar dan sistem tertanam. Mereka mengambil kesempatan daripada kuasa Linux untuk melaksanakan pelbagai tugas seperti hosting laman web dan analisis data besar.

Apakah kelemahan Linux? Apr 08, 2025 am 12:01 AM

Kelemahan Linux termasuk pengalaman pengguna, keserasian perisian, sokongan perkakasan, dan keluk pembelajaran. 1. Pengalaman pengguna tidak mesra seperti Windows atau MacOS, dan ia bergantung pada antara muka baris arahan. 2. Keserasian perisian tidak sebaik sistem lain dan tidak mempunyai versi asli banyak perisian komersial. 3. Sokongan perkakasan tidak begitu komprehensif seperti Windows, dan pemandu boleh dikumpulkan secara manual. 4. Keluk pembelajaran adalah curam, dan menguasai operasi baris arahan memerlukan masa dan kesabaran.

Adakah Internet berjalan di Linux? Apr 14, 2025 am 12:03 AM

Internet tidak bergantung pada sistem operasi tunggal, tetapi Linux memainkan peranan penting di dalamnya. Linux digunakan secara meluas dalam pelayan dan peranti rangkaian dan popular untuk kestabilan, keselamatan dan skalabiliti.

See all articles