


Comment utiliser Python pour le NLP pour identifier et traiter les dates et heures dans les fichiers PDF ?
Comment utiliser Python pour le NLP pour identifier et traiter la date et l'heure dans les fichiers PDF ?
Le NLP (Natural Language Processing) est un domaine de recherche largement utilisé qui implique de nombreuses tâches, notamment la classification de textes, la reconnaissance d'entités nommées, l'analyse des sentiments, etc. En PNL, le traitement des dates et des heures est une tâche importante car de nombreuses données textuelles contiennent des informations sur les dates et les heures. Cet article explique comment utiliser Python pour le NLP pour identifier et traiter les dates et les heures dans les fichiers PDF, et fournit des exemples de code spécifiques.
Avant de commencer, nous devons installer certaines bibliothèques Python nécessaires. Les principales bibliothèques que nous utiliserons incluent pdfminer.six pour l'analyse des fichiers PDF et la bibliothèque NLTK (Natural Language Toolkit) pour les tâches NLP. Si vous n'avez pas encore installé ces bibliothèques, vous pouvez les installer à l'aide de la commande suivante :
pip install pdfminer.six pip install nltk
Après avoir installé ces bibliothèques, nous pouvons commencer à écrire du code. Tout d'abord, nous devons importer les bibliothèques requises :
import re import nltk from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.pdfpage import PDFPage from io import StringIO
Ensuite, nous devons définir une fonction pour analyser le fichier PDF et en extraire le contenu textuel :
def extract_text_from_pdf(pdf_path): rsrcmgr = PDFResourceManager() retstr = StringIO() codec = 'utf-8' laparams = LAParams() device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams) fp = open(pdf_path, 'rb') interpreter = PDFPageInterpreter(rsrcmgr, device) password = "" maxpages = 0 caching = True pagenos = set() for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password, caching=caching, check_extractable=True): interpreter.process_page(page) text = retstr.getvalue() fp.close() device.close() retstr.close() return text
Dans le code ci-dessus, nous utilisons les fonctions fournies par pdfminer. bibliothèque pour analyser le fichier PDF et enregistrer le contenu du texte analysé dans une chaîne.
Ensuite, nous devons définir une fonction pour trouver le modèle de date et d'heure à partir du texte et l'extraire :
def extract_dates_and_times(text): sentences = nltk.sent_tokenize(text) dates_and_times = [] for sentence in sentences: words = nltk.word_tokenize(sentence) tagged_words = nltk.pos_tag(words) pattern = r"(?:[0-9]{1,2}(?:st|nd|rd|th)?s+ofs+)?(?:jan(?:uary)?|feb(?:ruary)?|mar(?:ch)?|apr(?:il)?|may|jun(?:e)?|jul(?:y)?|aug(?:ust)?|sep(?:tember)?|oct(?:ober)?|nov(?:ember)?|dec(?:ember)?)(?:s*[0-9]{1,4})?(?:s*(?:a.?d.?|b.?c.?e.?))?|(?:(?:[0-9]+:)?[0-9]{1,2}(?::[0-9]{1,2})?(?:s*(?:a.?m.?|p.?m.?))?)" matches = re.findall(pattern, sentence, flags=re.IGNORECASE) dates_and_times.extend(matches) return dates_and_times
Dans le code ci-dessus, nous utilisons d'abord la fonction sent_tokenize fournie par la bibliothèque nltk pour diviser le texte en phrases , Utilisez ensuite la fonction word_tokenize pour diviser chaque phrase en mots. Ensuite, nous utilisons la fonction pos_tag de nltk pour marquer le mot avec une balise de partie du discours afin de nous aider à identifier la date et l'heure. Enfin, nous utilisons une expression régulière pour faire correspondre le modèle de date et d'heure et l'enregistrons dans la liste des résultats.
Enfin, nous pouvons écrire du code pour appeler la fonction ci-dessus et utiliser la date et l'heure extraites :
pdf_path = "example.pdf" text = extract_text_from_pdf(pdf_path) dates_and_times = extract_dates_and_times(text) print("Dates and times found in the PDF:") for dt in dates_and_times: print(dt)
Dans le code ci-dessus, nous supposons que le chemin du fichier PDF est "exemple.pdf", et nous appelons extract_text_from_pdf fonction pour obtenir le contenu du texte et appeler la fonction extract_dates_and_times pour extraire la date et l’heure. Enfin, nous imprimons la date et l’heure extraites.
Dans les applications réelles, nous pouvons effectuer un traitement et une analyse supplémentaires selon les besoins, tels que la conversion de la date et de l'heure extraites dans un format spécifique, ou l'exécution d'autres opérations ultérieures basées sur la date et l'heure.
Résumé :
Cet article explique comment utiliser Python pour le NLP pour identifier et traiter les dates et les heures dans les fichiers PDF. Nous utilisons la bibliothèque pdfminer pour analyser le fichier PDF, la bibliothèque NLTK pour la tâche NLP, puis utilisons la correspondance de modèles d'expressions régulières pour extraire la date et l'heure. En écrivant des exemples de code correspondants, nous pouvons extraire la date et l'heure des fichiers PDF et effectuer un traitement et une analyse ultérieurs. Ces technologies et méthodes peuvent être appliquées dans de nombreux scénarios pratiques, par exemple dans des domaines tels que l'archivage automatique de documents, l'extraction d'informations et l'analyse de données.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

PHP et Python ont leurs propres avantages et inconvénients, et le choix dépend des besoins du projet et des préférences personnelles. 1.Php convient au développement rapide et à la maintenance des applications Web à grande échelle. 2. Python domine le domaine de la science des données et de l'apprentissage automatique.

Python et JavaScript ont leurs propres avantages et inconvénients en termes de communauté, de bibliothèques et de ressources. 1) La communauté Python est amicale et adaptée aux débutants, mais les ressources de développement frontal ne sont pas aussi riches que JavaScript. 2) Python est puissant dans les bibliothèques de science des données et d'apprentissage automatique, tandis que JavaScript est meilleur dans les bibliothèques et les cadres de développement frontaux. 3) Les deux ont des ressources d'apprentissage riches, mais Python convient pour commencer par des documents officiels, tandis que JavaScript est meilleur avec MDNWEBDOCS. Le choix doit être basé sur les besoins du projet et les intérêts personnels.

Dans VS Code, vous pouvez exécuter le programme dans le terminal via les étapes suivantes: Préparez le code et ouvrez le terminal intégré pour vous assurer que le répertoire de code est cohérent avec le répertoire de travail du terminal. Sélectionnez la commande Run en fonction du langage de programmation (tel que Python de Python your_file_name.py) pour vérifier s'il s'exécute avec succès et résoudre les erreurs. Utilisez le débogueur pour améliorer l'efficacité du débogage.

VS Code peut être utilisé pour écrire Python et fournit de nombreuses fonctionnalités qui en font un outil idéal pour développer des applications Python. Il permet aux utilisateurs de: installer des extensions Python pour obtenir des fonctions telles que la réalisation du code, la mise en évidence de la syntaxe et le débogage. Utilisez le débogueur pour suivre le code étape par étape, trouver et corriger les erreurs. Intégrez Git pour le contrôle de version. Utilisez des outils de mise en forme de code pour maintenir la cohérence du code. Utilisez l'outil de liaison pour repérer les problèmes potentiels à l'avance.

Docker utilise les fonctionnalités du noyau Linux pour fournir un environnement de fonctionnement d'application efficace et isolé. Son principe de travail est le suivant: 1. Le miroir est utilisé comme modèle en lecture seule, qui contient tout ce dont vous avez besoin pour exécuter l'application; 2. Le Système de fichiers Union (UnionFS) empile plusieurs systèmes de fichiers, ne stockant que les différences, l'économie d'espace et l'accélération; 3. Le démon gère les miroirs et les conteneurs, et le client les utilise pour l'interaction; 4. Les espaces de noms et les CGROUP implémentent l'isolement des conteneurs et les limitations de ressources; 5. Modes de réseau multiples prennent en charge l'interconnexion du conteneur. Ce n'est qu'en comprenant ces concepts principaux que vous pouvez mieux utiliser Docker.

Les extensions de code vs posent des risques malveillants, tels que la cachette de code malveillant, l'exploitation des vulnérabilités et la masturbation comme des extensions légitimes. Les méthodes pour identifier les extensions malveillantes comprennent: la vérification des éditeurs, la lecture des commentaires, la vérification du code et l'installation avec prudence. Les mesures de sécurité comprennent également: la sensibilisation à la sécurité, les bonnes habitudes, les mises à jour régulières et les logiciels antivirus.

VS Code peut fonctionner sur Windows 8, mais l'expérience peut ne pas être excellente. Assurez-vous d'abord que le système a été mis à jour sur le dernier correctif, puis téléchargez le package d'installation VS Code qui correspond à l'architecture du système et l'installez comme invité. Après l'installation, sachez que certaines extensions peuvent être incompatibles avec Windows 8 et doivent rechercher des extensions alternatives ou utiliser de nouveaux systèmes Windows dans une machine virtuelle. Installez les extensions nécessaires pour vérifier si elles fonctionnent correctement. Bien que le code VS soit possible sur Windows 8, il est recommandé de passer à un système Windows plus récent pour une meilleure expérience de développement et une meilleure sécurité.

Python excelle dans l'automatisation, les scripts et la gestion des tâches. 1) Automatisation: La sauvegarde du fichier est réalisée via des bibliothèques standard telles que le système d'exploitation et la fermeture. 2) Écriture de script: utilisez la bibliothèque PSUTIL pour surveiller les ressources système. 3) Gestion des tâches: utilisez la bibliothèque de planification pour planifier les tâches. La facilité d'utilisation de Python et la prise en charge de la bibliothèque riche en font l'outil préféré dans ces domaines.
