Maison > Tutoriel système > Linux > Comptez les caractères et les mots dans les fichiers PDF à l'aide de Python dans Linux

Comptez les caractères et les mots dans les fichiers PDF à l'aide de Python dans Linux

Jennifer Aniston
Libérer: 2025-03-14 11:08:12
original
378 Les gens l'ont consulté

Ce script Python compte efficacement les mots et les caractères dans les fichiers PDF, offrant une flexibilité dans la gestion des caractères de Newline. Explorons sa fonctionnalité et son utilisation.

Analyse du contenu PDF avec Python

L'extraction de données textuelles de PDFS et effectuer des dénombrements de mots / caractères est facilement réalisée à l'aide de la bibliothèque PyPDF2 de Python. Ce script exploite PyPDF2 pour traiter les fichiers PDF, fournissant un rapport d'analyse complet.

Répartition du script:

Le script, pdfcwcount.py , comprend trois fonctions principales:

  1. extract_text_from_pdf(file_path) : Cette fonction lit le fichier PDF spécifié, extrait le texte de chaque page et le concaténe en une seule chaîne. Il gère gracieusement FileNotFoundError des exceptions.

  2. count_words_in_text(text) : Cette fonction divise simplement la chaîne de texte d'entrée en mots (en utilisant des espaces comme délimiteurs) et renvoie le nombre de mots.

  3. count_characters_in_text(text, include_newlines=True) : cette fonction compte les caractères. Le paramètre include_newlines offre un contrôle sur la question de savoir si les caractères nouvelles ( \n ) sont inclus dans le décompte.

La section principale du script utilise le module argparse pour gérer les arguments en ligne de commande, permettant aux utilisateurs de spécifier le chemin de fichier PDF. Après avoir extrait du texte, il calcule le nombre de mots et de caractères (avec et sans Newlines) et présente un rapport formaté.

Installation et utilisation:

  1. Installer PYPDF2: Utilisez PIP: pip install PyPDF2

  2. Exécutez le script: exécutez le script à partir de votre terminal, en fournissant le chemin de fichier PDF comme argument:

     python pdfcwcount.py /path/to/your/file.pdf
    Copier après la connexion

    Remplacez /path/to/your/file.pdf par le chemin d'accès réel vers votre fichier PDF.

Exemple de sortie:

Le script génère un rapport similaire à ceci:

 <code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>
Copier après la connexion

Comptez les caractères et les mots dans les fichiers PDF à l'aide de Python dans Linux

Conclusion:

Ce script Python fournit une solution robuste et efficace pour analyser le contenu textuel des fichiers PDF. Sa structure claire et son interface de ligne de commande le rendent convivial et adaptable à divers besoins. L'option d'inclure ou d'exclure les caractères Newline ajoute une flexibilité précieuse pour différentes exigences analytiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal