使用Python在Linux中使用PDF文件中的字符和單詞來計數-Linux-PHP中文網

使用Python在Linux中使用PDF文件中的字符和單詞來計數

Jennifer Aniston

發布： 2025-03-14 11:08:12

原創

394 人瀏覽過

該Python腳本有效地計數PDF文件中的單詞和字符，從而在處理Newline字符時具有靈活性。讓我們探索其功能和用法。

用Python分析PDF內容

使用Python的PyPDF2庫可以輕鬆實現從PDF中提取文本數據並執行單詞/字符計數。該腳本利用PyPDF2處理PDF文件，提供了全面的分析報告。

腳本分解：

腳本pdfcwcount.py包括三個核心功能：

extract_text_from_pdf(file_path) ：此功能讀取指定的pdf文件，從每個頁面中提取文本，然後將其串聯成一個字符串。它優雅地處理了FileNotFoundError例外。
count_words_in_text(text) ：此函數只需將輸入文本字符串拆分為單詞（使用空格作為定界數），然後返回單詞計數。
count_characters_in_text(text, include_newlines=True) ：此函數計數字符。 include_newlines參數提供了計數中是否包含newline字符（ \n ）的控制權。

腳本的主要部分使用argparse模塊來處理命令行參數，從而允許用戶指定PDF文件路徑。提取文本後，它計算出單詞和字符計數（帶有和不使用新線），並提出格式的報告。

安裝和用法：

安裝PYPDF2：使用PIP： pip install PyPDF2
運行腳本：從終端執行腳本，將PDF文件路徑作為參數提供：
```
 python pdfcwcount.py/path/to/your/file.pdf
```
登入後複製
用PDF文件的實際路徑替換/path/to/your/file.pdf 。

示例輸出：

該腳本生成的報告類似：

 <code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>

登入後複製

使用Python在Linux中使用PDF文件中的字符和單詞來計數