Kira watak dan perkataan dalam fail pdf menggunakan python di linux
Skrip Python ini dengan cekap mengira perkataan dan watak dalam fail PDF, yang menawarkan fleksibiliti dalam mengendalikan aksara baru. Mari kita meneroka fungsinya dan penggunaannya.
Menganalisis kandungan PDF dengan Python
Mengekstrak data teks dari PDFs dan melaksanakan kiraan perkataan/aksara mudah dicapai menggunakan perpustakaan Python's PyPDF2
. Skrip ini memanfaatkan PyPDF2
untuk memproses fail PDF, menyediakan laporan analisis yang komprehensif.
Kerosakan skrip:
Skrip, pdfcwcount.py
, terdiri daripada tiga fungsi teras:
extract_text_from_pdf(file_path)
: Fungsi ini membaca fail pdf yang ditentukan, mengekstrak teks dari setiap halaman, dan menggabungkannya ke dalam satu rentetan. Ia dengan anggun mengendalikan pengecualianFileNotFoundError
.count_words_in_text(text)
: Fungsi ini hanya memisahkan rentetan teks input ke dalam kata -kata (menggunakan ruang sebagai pembatas) dan mengembalikan kiraan perkataan.count_characters_in_text(text, include_newlines=True)
: Fungsi ini mengira aksara. Parameterinclude_newlines
menawarkan kawalan ke atas sama ada aksara baru (\n
) dimasukkan ke dalam kiraan.
Bahagian utama skrip menggunakan modul argparse
untuk mengendalikan argumen baris arahan, yang membolehkan pengguna menentukan laluan fail PDF. Selepas mengekstrak teks, ia mengira bilangan perkataan dan watak (dengan dan tanpa garis baru) dan membentangkan laporan yang diformat.
Pemasangan dan Penggunaan:
Pasang PYPDF2: Gunakan PIP:
pip install PyPDF2
-
Jalankan skrip: Laksanakan skrip dari terminal anda, menyediakan laluan fail PDF sebagai hujah:
python pdfcwcount.py /path/to/your/file.pdf
Salin selepas log masukGanti
/path/to/your/file.pdf
dengan laluan sebenar ke fail pdf anda.
Output Contoh:
Skrip menghasilkan laporan yang serupa dengan ini:
<code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>
Kesimpulan:
Skrip Python ini menyediakan penyelesaian yang mantap dan cekap untuk menganalisis kandungan teks fail PDF. Strukturnya yang jelas dan antara muka baris membuatnya mesra pengguna dan disesuaikan dengan pelbagai keperluan. Pilihan untuk memasukkan atau mengecualikan aksara Newline menambah fleksibiliti yang berharga untuk keperluan analisis yang berbeza.
Atas ialah kandungan terperinci Kira watak dan perkataan dalam fail pdf menggunakan python di linux. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Linux paling baik digunakan sebagai pengurusan pelayan, sistem tertanam dan persekitaran desktop. 1) Dalam pengurusan pelayan, Linux digunakan untuk menjadi tuan rumah laman web, pangkalan data, dan aplikasi, menyediakan kestabilan dan kebolehpercayaan. 2) Dalam sistem tertanam, Linux digunakan secara meluas di rumah pintar dan sistem elektronik automotif kerana fleksibiliti dan kestabilannya. 3) Dalam persekitaran desktop, Linux menyediakan aplikasi yang kaya dan prestasi yang cekap.

Lima komponen asas Linux adalah: 1. Kernel, menguruskan sumber perkakasan; 2. Perpustakaan sistem, menyediakan fungsi dan perkhidmatan; 3. Shell, antara muka pengguna untuk berinteraksi dengan sistem; 4. Sistem fail, menyimpan dan menganjurkan data; 5. Aplikasi, menggunakan sumber sistem untuk melaksanakan fungsi.

Pengurusan Sistem Linux memastikan kestabilan sistem, kecekapan dan keselamatan melalui konfigurasi, pemantauan dan penyelenggaraan. 1. Perintah Shell Master seperti Top dan Systemctl. 2. Gunakan apt atau yum untuk menguruskan pakej perisian. 3. Tulis skrip automatik untuk meningkatkan kecekapan. 4. Kesilapan debug biasa seperti masalah kebenaran. 5. Mengoptimumkan prestasi melalui alat pemantauan.

Kaedah untuk pembelajaran asas Linux dari awal termasuk: 1. Memahami sistem fail dan antara muka baris perintah, 2. Master arahan asas seperti LS, CD, MKDIR, 3.

Linux digunakan secara meluas dalam pelayan, sistem tertanam dan persekitaran desktop. 1) Dalam bidang pelayan, Linux telah menjadi pilihan yang ideal untuk menganjurkan laman web, pangkalan data dan aplikasi kerana kestabilan dan keselamatannya. 2) Dalam sistem tertanam, Linux popular untuk penyesuaian dan kecekapan yang tinggi. 3) Di persekitaran desktop, Linux menyediakan pelbagai persekitaran desktop untuk memenuhi keperluan pengguna yang berbeza.

Peranti Linux adalah peranti perkakasan yang menjalankan sistem operasi Linux, termasuk pelayan, komputer peribadi, telefon pintar dan sistem tertanam. Mereka mengambil kesempatan daripada kuasa Linux untuk melaksanakan pelbagai tugas seperti hosting laman web dan analisis data besar.

Kelemahan Linux termasuk pengalaman pengguna, keserasian perisian, sokongan perkakasan, dan keluk pembelajaran. 1. Pengalaman pengguna tidak mesra seperti Windows atau MacOS, dan ia bergantung pada antara muka baris arahan. 2. Keserasian perisian tidak sebaik sistem lain dan tidak mempunyai versi asli banyak perisian komersial. 3. Sokongan perkakasan tidak begitu komprehensif seperti Windows, dan pemandu boleh dikumpulkan secara manual. 4. Keluk pembelajaran adalah curam, dan menguasai operasi baris arahan memerlukan masa dan kesabaran.

Internet tidak bergantung pada sistem operasi tunggal, tetapi Linux memainkan peranan penting di dalamnya. Linux digunakan secara meluas dalam pelayan dan peranti rangkaian dan popular untuk kestabilan, keselamatan dan skalabiliti.
