Python pour le NLP : Comment organiser et classer automatiquement le texte dans les fichiers PDF ?-Tutoriel Python-php.cn

Table des matières

1. Installez les bibliothèques Python nécessaires

2. Extraire le texte des fichiers PDF

3. Prétraitement du texte

4. Classification du texte

5. Intégrez le code et traitez automatiquement les fichiers PDF

Conclusion

Maison

développement back-end

Tutoriel Python

Python pour le NLP : Comment organiser et classer automatiquement le texte dans les fichiers PDF ?

王林

Sep 28, 2023 am 09:12 AM

python pdf nlp

Python for NLP：如何自动整理和分类PDF文件中的文本？

Python pour le NLP : Comment organiser et classer automatiquement le texte dans les fichiers PDF ?

Résumé :
Avec le développement d'Internet et la croissance explosive de l'information, nous sommes confrontés chaque jour à une grande quantité de données textuelles. À cette époque, l’organisation et la classification automatiques du texte sont devenues de plus en plus importantes. Cet article explique comment utiliser Python et ses puissantes fonctions de traitement du langage naturel (NLP) pour extraire automatiquement le texte des fichiers PDF, l'organiser et le classer.

1. Installez les bibliothèques Python nécessaires

Avant de commencer, nous devons nous assurer que les bibliothèques Python suivantes sont installées :

pdfplomber : utilisé pour extraire le texte d'un PDF.
nltk : pour le traitement du langage naturel.
sklearn : pour la classification de texte.
Peut être installé à l'aide de la commande pip. Par exemple : pip install pdfplumber

2. Extraire le texte des fichiers PDF

Tout d'abord, nous devons utiliser la bibliothèque pdfplumber pour extraire le texte des fichiers PDF.

import pdfplumber

def extract_text_from_pdf(file_path):
    with pdfplumber.open(file_path) as pdf:
        text = ""
        for page in pdf.pages:
            text += page.extract_text()
    return text

Copier après la connexion

Dans le code ci-dessus, nous définissons une fonction appelée extract_text_from_pdf pour extraire le texte d'un fichier PDF donné. La fonction accepte un chemin de fichier comme paramètre et ouvre le fichier PDF à l'aide de la bibliothèque pdfplumber, puis parcourt chaque page via une boucle et extrait le texte à l'aide de la méthode extract_text().

3. Prétraitement du texte

Avant la classification du texte, nous devons généralement prétraiter le texte. Cela inclut des étapes telles que la suppression des mots vides, la tokenisation, la radicalisation, etc. Dans cet article, nous utiliserons la bibliothèque nltk pour accomplir ces tâches.

import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import SnowballStemmer

def preprocess_text(text):
    # 将文本转换为小写
    text = text.lower()
    
    # 分词
    tokens = word_tokenize(text)
    
    # 移除停用词
    stop_words = set(stopwords.words("english"))
    filtered_tokens = [word for word in tokens if word not in stop_words]
    
    # 词干提取
    stemmer = SnowballStemmer("english")
    stemmed_tokens = [stemmer.stem(word) for word in filtered_tokens]
    
    # 返回预处理后的文本
    return " ".join(stemmed_tokens)

Copier après la connexion

Dans le code ci-dessus, nous convertissons d'abord le texte en minuscules, puis utilisons la méthode word_tokenize() pour tokeniser le texte. Ensuite, nous utilisons la bibliothèque stopwords pour supprimer les mots vides et SnowballStemmer pour la radicalisation. Enfin, nous renvoyons le texte prétraité.

4. Classification du texte

Maintenant que nous avons extrait le texte du fichier PDF et l'avons prétraité, nous pouvons utiliser des algorithmes d'apprentissage automatique pour classer le texte. Dans cet article, nous utiliserons l'algorithme Naive Bayes comme classificateur.

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

def classify_text(text):
    # 加载已训练的朴素贝叶斯分类器模型
    model = joblib.load("classifier_model.pkl")
    
    # 加载已训练的词袋模型
    vectorizer = joblib.load("vectorizer_model.pkl")
    
    # 预处理文本
    preprocessed_text = preprocess_text(text)
    
    # 将文本转换为特征向量
    features = vectorizer.transform([preprocessed_text])
    
    # 使用分类器预测文本类别
    predicted_category = model.predict(features)
    
    # 返回预测结果
    return predicted_category[0]

Copier après la connexion

Dans le code ci-dessus, nous chargeons d'abord le modèle de classificateur Naive Bayes formé et le modèle de sac de mots à l'aide de la bibliothèque joblib. Ensuite, nous convertissons le texte prétraité en vecteurs de caractéristiques, puis utilisons un classificateur pour classer le texte. Enfin, nous renvoyons le résultat de classification prédit du texte.

5. Intégrez le code et traitez automatiquement les fichiers PDF

Maintenant, nous pouvons intégrer le code ci-dessus et traiter automatiquement les fichiers PDF, extraire le texte et le classer.

import os

def process_pdf_files(folder_path):
    for filename in os.listdir(folder_path):
        if filename.endswith(".pdf"):
            file_path = os.path.join(folder_path, filename)
            
            # 提取文本
            text = extract_text_from_pdf(file_path)
            
            # 分类文本
            category = classify_text(text)
            
            # 打印文件名和分类结果
            print("File:", filename)
            print("Category:", category)
            print("--------------------------------------")

# 指定待处理的PDF文件所在文件夹
folder_path = "pdf_folder"

# 处理PDF文件
process_pdf_files(folder_path)

Copier après la connexion

Dans le code ci-dessus, nous définissons d'abord une fonction appelée process_pdf_files pour traiter automatiquement les fichiers du dossier PDF. Ensuite, utilisez la méthode listdir() de la bibliothèque os pour parcourir chaque fichier du dossier, extraire le texte du fichier PDF et le classer. Enfin, nous imprimons le nom du fichier et les résultats de la classification.

Conclusion

En utilisant les fonctions Python et NLP, nous pouvons facilement extraire le texte des fichiers PDF, l'organiser et le classer. Cet article fournit un exemple de code pour aider les lecteurs à comprendre comment traiter automatiquement le texte dans les fichiers PDF, mais les scénarios d'application spécifiques peuvent être différents et doivent être ajustés et modifiés en fonction de la situation réelle.

Références :

document officiel pdfplumber : https://github.com/jsvine/pdfplumber
document officiel nltk : https://www.nltk.org/
document officiel sklearn : https://scikit - learn.org/

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Will R.E.P.O. Vous avez un jeu croisé?

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7552

Tutoriel CakePHP

1382

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

PHP et Python: exemples de code et comparaison Apr 15, 2025 am 12:07 AM

PHP et Python ont leurs propres avantages et inconvénients, et le choix dépend des besoins du projet et des préférences personnelles. 1.Php convient au développement rapide et à la maintenance des applications Web à grande échelle. 2. Python domine le domaine de la science des données et de l'apprentissage automatique.

Comment est la prise en charge du GPU pour Pytorch sur Centos Apr 14, 2025 pm 06:48 PM

Activer l'accélération du GPU Pytorch sur le système CentOS nécessite l'installation de versions CUDA, CUDNN et GPU de Pytorch. Les étapes suivantes vous guideront tout au long du processus: CUDA et CUDNN Installation détermineront la compatibilité de la version CUDA: utilisez la commande NVIDIA-SMI pour afficher la version CUDA prise en charge par votre carte graphique NVIDIA. Par exemple, votre carte graphique MX450 peut prendre en charge CUDA11.1 ou plus. Téléchargez et installez Cudatoolkit: visitez le site officiel de Nvidiacudatoolkit et téléchargez et installez la version correspondante selon la version CUDA la plus élevée prise en charge par votre carte graphique. Installez la bibliothèque CUDNN:

Python vs JavaScript: communauté, bibliothèques et ressources Apr 15, 2025 am 12:16 AM

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Explication détaillée du principe docker Apr 14, 2025 pm 11:57 PM

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

Miniopen Centos Compatibilité Apr 14, 2025 pm 05:45 PM

Minio Object Storage: Déploiement haute performance dans le système Centos System Minio est un système de stockage d'objets distribué haute performance développé sur la base du langage Go, compatible avec Amazons3. Il prend en charge une variété de langages clients, notamment Java, Python, JavaScript et GO. Cet article introduira brièvement l'installation et la compatibilité de Minio sur les systèmes CentOS. Compatibilité de la version CentOS Minio a été vérifiée sur plusieurs versions CentOS, y compris, mais sans s'y limiter: CentOS7.9: fournit un guide d'installation complet couvrant la configuration du cluster, la préparation de l'environnement, les paramètres de fichiers de configuration, le partitionnement du disque et la mini

Comment faire fonctionner la formation distribuée de Pytorch sur CentOS Apr 14, 2025 pm 06:36 PM

La formation distribuée par Pytorch sur le système CentOS nécessite les étapes suivantes: Installation de Pytorch: La prémisse est que Python et PIP sont installés dans le système CentOS. Selon votre version CUDA, obtenez la commande d'installation appropriée sur le site officiel de Pytorch. Pour la formation du processeur uniquement, vous pouvez utiliser la commande suivante: pipinstalltorchtorchVisionTorChaudio Si vous avez besoin d'une prise en charge du GPU, assurez-vous que la version correspondante de CUDA et CUDNN est installée et utilise la version Pytorch correspondante pour l'installation. Configuration de l'environnement distribué: la formation distribuée nécessite généralement plusieurs machines ou des GPU multiples uniques. Lieu

Comment choisir la version Pytorch sur Centos Apr 14, 2025 pm 06:51 PM

Lors de l'installation de Pytorch sur le système CentOS, vous devez sélectionner soigneusement la version appropriée et considérer les facteurs clés suivants: 1. Compatibilité de l'environnement du système: Système d'exploitation: Il est recommandé d'utiliser CentOS7 ou plus. CUDA et CUDNN: La version Pytorch et la version CUDA sont étroitement liées. Par exemple, Pytorch1.9.0 nécessite CUDA11.1, tandis que Pytorch2.0.1 nécessite CUDA11.3. La version CUDNN doit également correspondre à la version CUDA. Avant de sélectionner la version Pytorch, assurez-vous de confirmer que des versions compatibles CUDA et CUDNN ont été installées. Version Python: branche officielle de Pytorch

Comment mettre à jour Pytorch vers la dernière version sur Centos Apr 14, 2025 pm 06:15 PM

La mise à jour de Pytorch vers la dernière version sur CentOS peut suivre les étapes suivantes: Méthode 1: Mise à jour de PIP avec PIP: Assurez-vous d'abord que votre PIP est la dernière version, car les anciennes versions de PIP peuvent ne pas être en mesure d'installer correctement la dernière version de Pytorch. pipinstall-upradepip désinstalle ancienne version de Pytorch (si installé): PipuninstallTorchtorchVisiontorchaudio installation dernier

See all articles