Comptez les caractères et les mots dans les fichiers PDF à l'aide de Python dans Linux-Linux-php.cn

Maison

Tutoriel système

Linux

Comptez les caractères et les mots dans les fichiers PDF à l'aide de Python dans Linux

Jennifer Aniston

Mar 14, 2025 am 11:08 AM

Ce script Python compte efficacement les mots et les caractères dans les fichiers PDF, offrant une flexibilité dans la gestion des caractères de Newline. Explorons sa fonctionnalité et son utilisation.

Analyse du contenu PDF avec Python

L'extraction de données textuelles de PDFS et effectuer des dénombrements de mots / caractères est facilement réalisée à l'aide de la bibliothèque PyPDF2 de Python. Ce script exploite PyPDF2 pour traiter les fichiers PDF, fournissant un rapport d'analyse complet.

Répartition du script:

Le script, pdfcwcount.py , comprend trois fonctions principales:

extract_text_from_pdf(file_path) : Cette fonction lit le fichier PDF spécifié, extrait le texte de chaque page et le concaténe en une seule chaîne. Il gère gracieusement FileNotFoundError des exceptions.
count_words_in_text(text) : Cette fonction divise simplement la chaîne de texte d'entrée en mots (en utilisant des espaces comme délimiteurs) et renvoie le nombre de mots.
count_characters_in_text(text, include_newlines=True) : cette fonction compte les caractères. Le paramètre include_newlines offre un contrôle sur la question de savoir si les caractères nouvelles ( \n ) sont inclus dans le décompte.

La section principale du script utilise le module argparse pour gérer les arguments en ligne de commande, permettant aux utilisateurs de spécifier le chemin de fichier PDF. Après avoir extrait du texte, il calcule le nombre de mots et de caractères (avec et sans Newlines) et présente un rapport formaté.

Installation et utilisation:

Installer PYPDF2: Utilisez PIP: pip install PyPDF2
Exécutez le script: exécutez le script à partir de votre terminal, en fournissant le chemin de fichier PDF comme argument:
```
 python pdfcwcount.py /path/to/your/file.pdf
```
Copier après la connexion
Remplacez /path/to/your/file.pdf par le chemin d'accès réel vers votre fichier PDF.

Exemple de sortie:

Le script génère un rapport similaire à ceci:

 <code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>

Copier après la connexion

Comptez les caractères et les mots dans les fichiers PDF à l'aide de Python dans Linux

Conclusion:

Ce script Python fournit une solution robuste et efficace pour analyser le contenu textuel des fichiers PDF. Sa structure claire et son interface de ligne de commande le rendent convivial et adaptable à divers besoins. L'option d'inclure ou d'exclure les caractères Newline ajoute une flexibilité précieuse pour différentes exigences analytiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

4 Il y a quelques semaines By DDD

Comment réparer KB5055523 ne parvient pas à s'installer dans Windows 11?

3 Il y a quelques semaines By DDD

Inzoi: Comment postuler à l'école et à l'université

4 Il y a quelques semaines By DDD

Comment réparer KB5055518 ne parvient pas à s'installer dans Windows 10?

3 Il y a quelques semaines By DDD

Où trouver la clé du bureau du site dans Atomfall

4 Il y a quelques semaines By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7884

Tutoriel Java

1649

Tutoriel CakePHP

1410

Tutoriel Laravel

1301

Tutoriel PHP

1245

Afficher plus

Related knowledge

À quoi sert le mieux le Linux? Apr 03, 2025 am 12:11 AM

Linux est mieux utilisé comme gestion de serveurs, systèmes intégrés et environnements de bureau. 1) Dans la gestion des serveurs, Linux est utilisé pour héberger des sites Web, des bases de données et des applications, assurant la stabilité et la fiabilité. 2) Dans les systèmes intégrés, Linux est largement utilisé dans les systèmes électroniques intelligents et automobiles en raison de sa flexibilité et de sa stabilité. 3) Dans l'environnement de bureau, Linux fournit des applications riches et des performances efficaces.

Quels sont les 5 composants de base de Linux? Apr 06, 2025 am 12:05 AM

Les cinq composants de base de Linux sont: 1. Le noyau, gérant les ressources matérielles; 2. La bibliothèque système, fournissant des fonctions et des services; 3. Shell, l'interface pour les utilisateurs pour interagir avec le système; 4. Le système de fichiers, stockant et organisant des données; 5. Applications, en utilisant des ressources système pour implémenter les fonctions.

Qu'est-ce que l'administration Linux de base? Apr 02, 2025 pm 02:09 PM

Linux System Management assure la stabilité, l'efficacité et la sécurité du système grâce à la configuration, à la surveillance et à la maintenance. 1. Commandes de shell maître telles que TOP et SystemCTL. 2. Utilisez APT ou YUM pour gérer le progiciel. 3. Écrivez des scripts automatisés pour améliorer l'efficacité. 4. Erreurs de débogage communs telles que les problèmes d'autorisation. 5. Optimiser les performances grâce à des outils de surveillance.

Comment apprendre les bases de Linux? Apr 10, 2025 am 09:32 AM

Les méthodes d'apprentissage Linux de base à partir de zéro incluent: 1. Comprendre le système de fichiers et l'interface de ligne de commande, 2. Master Basic Commandes telles que LS, CD, MKDIR, 3. Apprenez les opérations de fichiers, telles que la création et l'édition de fichiers, 4. Explorer une utilisation avancée telle que les pipelines et les commandes GREP, 5. Master Debugging Skills and Performance Optimimisation, 6. Amélioration continue des compétences par la pratique et l'exploration.

Quelle est la plus utilisée de Linux? Apr 09, 2025 am 12:02 AM

Linux est largement utilisé dans les serveurs, les systèmes intégrés et les environnements de bureau. 1) Dans le domaine du serveur, Linux est devenu un choix idéal pour héberger des sites Web, des bases de données et des applications en raison de sa stabilité et de sa sécurité. 2) Dans les systèmes intégrés, Linux est populaire pour sa personnalisation et son efficacité élevées. 3) Dans l'environnement de bureau, Linux fournit une variété d'environnements de bureau pour répondre aux besoins des différents utilisateurs.

Qu'est-ce qu'un appareil Linux? Apr 05, 2025 am 12:04 AM

Les périphériques Linux sont des périphériques matériels exécutant des systèmes d'exploitation Linux, y compris des serveurs, des ordinateurs personnels, des smartphones et des systèmes embarqués. Ils profitent de la puissance de Linux pour effectuer diverses tâches telles que l'hébergement de sites Web et l'analyse des mégadonnées.

Quels sont les inconvénients de Linux? Apr 08, 2025 am 12:01 AM

Les inconvénients de Linux incluent l'expérience utilisateur, la compatibilité des logiciels, la prise en charge matérielle et la courbe d'apprentissage. 1. L'expérience utilisateur n'est pas aussi conviviale que Windows ou MacOS, et elle s'appuie sur l'interface de ligne de commande. 2. La compatibilité logicielle n'est pas aussi bonne que les autres systèmes et manque de versions natives de nombreux logiciels commerciaux. 3. La prise en charge matérielle n'est pas aussi complète que Windows, et les pilotes peuvent être compilés manuellement. 4. La courbe d'apprentissage est raide et la maîtrise des opérations de ligne de commande nécessite du temps et de la patience.

Internet fonctionne-t-il sur Linux? Apr 14, 2025 am 12:03 AM

Internet ne s'appuie pas sur un seul système d'exploitation, mais Linux joue un rôle important. Linux est largement utilisé dans les serveurs et les appareils réseau et est populaire pour sa stabilité, sa sécurité et son évolutivité.

See all articles