ホームページ > システムチュートリアル > Linux > LinuxでPythonを使用してPDFファイルで文字と単語をカウントする

LinuxでPythonを使用してPDFファイルで文字と単語をカウントする

Jennifer Aniston
リリース: 2025-03-14 11:08:12
オリジナル
382 人が閲覧しました

このPythonスクリプトは、PDFファイルの単語と文字を効率的にカウントし、新しいライン文字の処理に柔軟性を提供します。その機能と使用法を調べてみましょう。

Pythonを使用したPDFコンテンツの分析

PDFからテキストデータを抽出し、単語/文字カウントを実行することは、PythonのPyPDF2ライブラリを使用して簡単に実現できます。このスクリプトは、 PyPDF2を活用してPDFファイルを処理し、包括的な分析レポートを提供します。

スクリプトの内訳:

スクリプト、 pdfcwcount.pyは、3つのコア関数で構成されています。

  1. extract_text_from_pdf(file_path)この関数は、指定されたPDFファイルを読み取り、各ページからテキストを抽出し、単一の文字列に連結します。 FileNotFoundError例外を優雅に処理します。

  2. count_words_in_text(text)この関数は、入力テキスト文字列を単語(デリミターとしてスペースを使用して)に分割し、単語数を返します。

  3. count_characters_in_text(text, include_newlines=True)この関数は文字をカウントします。 include_newlinesパラメーターは、newline文字( \n )がカウントに含まれているかどうかを制御します。

スクリプトのメインセクションでは、 argparseモジュールを使用してコマンドライン引数を処理し、ユーザーがPDFファイルパスを指定できるようにします。テキストを抽出した後、単語と文字カウントを計算し(ニューラインの有無にかかわらず)、フォーマットされたレポートを提示します。

インストールと使用法:

  1. PYPDF2のインストール: PIPを使用: pip install PyPDF2

  2. スクリプトの実行:端末からスクリプトを実行し、PDFファイルパスを引数として提供します。

     python pdfcwcount.py/path/to/your/file.pdf
    ログイン後にコピー

    PDFファイルへの実際のパスを使用して、 /path/to/your/file.pdf your/file.pdfを置き換えます。

出力の例:

スクリプトは、これに似たレポートを生成します。

 <code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>
ログイン後にコピー

LinuxでPythonを使用してPDFファイルで文字と単語をカウントする

結論:

このPythonスクリプトは、PDFファイルのテキストコンテンツを分析するための堅牢で効率的なソリューションを提供します。その明確な構造とコマンドラインインターフェイスにより、ユーザーフレンドリーでさまざまなニーズに適応できます。 NewLine文字を含めるか除外するオプションは、さまざまな分析要件に貴重な柔軟性を追加します。

以上がLinuxでPythonを使用してPDFファイルで文字と単語をカウントするの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート