


Comptez les caractères et les mots dans les fichiers PDF à l'aide de Python dans Linux
Ce script Python compte efficacement les mots et les caractères dans les fichiers PDF, offrant une flexibilité dans la gestion des caractères de Newline. Explorons sa fonctionnalité et son utilisation.
Analyse du contenu PDF avec Python
L'extraction de données textuelles de PDFS et effectuer des dénombrements de mots / caractères est facilement réalisée à l'aide de la bibliothèque PyPDF2
de Python. Ce script exploite PyPDF2
pour traiter les fichiers PDF, fournissant un rapport d'analyse complet.
Répartition du script:
Le script, pdfcwcount.py
, comprend trois fonctions principales:
extract_text_from_pdf(file_path)
: Cette fonction lit le fichier PDF spécifié, extrait le texte de chaque page et le concaténe en une seule chaîne. Il gère gracieusementFileNotFoundError
des exceptions.count_words_in_text(text)
: Cette fonction divise simplement la chaîne de texte d'entrée en mots (en utilisant des espaces comme délimiteurs) et renvoie le nombre de mots.count_characters_in_text(text, include_newlines=True)
: cette fonction compte les caractères. Le paramètreinclude_newlines
offre un contrôle sur la question de savoir si les caractères nouvelles (\n
) sont inclus dans le décompte.
La section principale du script utilise le module argparse
pour gérer les arguments en ligne de commande, permettant aux utilisateurs de spécifier le chemin de fichier PDF. Après avoir extrait du texte, il calcule le nombre de mots et de caractères (avec et sans Newlines) et présente un rapport formaté.
Installation et utilisation:
Installer PYPDF2: Utilisez PIP:
pip install PyPDF2
-
Exécutez le script: exécutez le script à partir de votre terminal, en fournissant le chemin de fichier PDF comme argument:
python pdfcwcount.py /path/to/your/file.pdf
Copier après la connexionRemplacez
/path/to/your/file.pdf
par le chemin d'accès réel vers votre fichier PDF.
Exemple de sortie:
Le script génère un rapport similaire à ceci:
<code>--- PDF File Analysis Report --- File: /path/to/your/file.pdf Total Words: 123 Total Characters (including newlines): 789 Total Characters (excluding newlines): 750 -----------------------------</code>
Conclusion:
Ce script Python fournit une solution robuste et efficace pour analyser le contenu textuel des fichiers PDF. Sa structure claire et son interface de ligne de commande le rendent convivial et adaptable à divers besoins. L'option d'inclure ou d'exclure les caractères Newline ajoute une flexibilité précieuse pour différentes exigences analytiques.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Linux est mieux utilisé comme gestion de serveurs, systèmes intégrés et environnements de bureau. 1) Dans la gestion des serveurs, Linux est utilisé pour héberger des sites Web, des bases de données et des applications, assurant la stabilité et la fiabilité. 2) Dans les systèmes intégrés, Linux est largement utilisé dans les systèmes électroniques intelligents et automobiles en raison de sa flexibilité et de sa stabilité. 3) Dans l'environnement de bureau, Linux fournit des applications riches et des performances efficaces.

Les cinq composants de base de Linux sont: 1. Le noyau, gérant les ressources matérielles; 2. La bibliothèque système, fournissant des fonctions et des services; 3. Shell, l'interface pour les utilisateurs pour interagir avec le système; 4. Le système de fichiers, stockant et organisant des données; 5. Applications, en utilisant des ressources système pour implémenter les fonctions.

Linux System Management assure la stabilité, l'efficacité et la sécurité du système grâce à la configuration, à la surveillance et à la maintenance. 1. Commandes de shell maître telles que TOP et SystemCTL. 2. Utilisez APT ou YUM pour gérer le progiciel. 3. Écrivez des scripts automatisés pour améliorer l'efficacité. 4. Erreurs de débogage communs telles que les problèmes d'autorisation. 5. Optimiser les performances grâce à des outils de surveillance.

Les méthodes d'apprentissage Linux de base à partir de zéro incluent: 1. Comprendre le système de fichiers et l'interface de ligne de commande, 2. Master Basic Commandes telles que LS, CD, MKDIR, 3. Apprenez les opérations de fichiers, telles que la création et l'édition de fichiers, 4. Explorer une utilisation avancée telle que les pipelines et les commandes GREP, 5. Master Debugging Skills and Performance Optimimisation, 6. Amélioration continue des compétences par la pratique et l'exploration.

Linux est largement utilisé dans les serveurs, les systèmes intégrés et les environnements de bureau. 1) Dans le domaine du serveur, Linux est devenu un choix idéal pour héberger des sites Web, des bases de données et des applications en raison de sa stabilité et de sa sécurité. 2) Dans les systèmes intégrés, Linux est populaire pour sa personnalisation et son efficacité élevées. 3) Dans l'environnement de bureau, Linux fournit une variété d'environnements de bureau pour répondre aux besoins des différents utilisateurs.

Les périphériques Linux sont des périphériques matériels exécutant des systèmes d'exploitation Linux, y compris des serveurs, des ordinateurs personnels, des smartphones et des systèmes embarqués. Ils profitent de la puissance de Linux pour effectuer diverses tâches telles que l'hébergement de sites Web et l'analyse des mégadonnées.

Les inconvénients de Linux incluent l'expérience utilisateur, la compatibilité des logiciels, la prise en charge matérielle et la courbe d'apprentissage. 1. L'expérience utilisateur n'est pas aussi conviviale que Windows ou MacOS, et elle s'appuie sur l'interface de ligne de commande. 2. La compatibilité logicielle n'est pas aussi bonne que les autres systèmes et manque de versions natives de nombreux logiciels commerciaux. 3. La prise en charge matérielle n'est pas aussi complète que Windows, et les pilotes peuvent être compilés manuellement. 4. La courbe d'apprentissage est raide et la maîtrise des opérations de ligne de commande nécessite du temps et de la patience.

Internet ne s'appuie pas sur un seul système d'exploitation, mais Linux joue un rôle important. Linux est largement utilisé dans les serveurs et les appareils réseau et est populaire pour sa stabilité, sa sécurité et son évolutivité.
