Comment utiliser Python pour le NLP pour traiter des données tabulaires dans des fichiers PDF ?-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Comment utiliser Python pour le NLP pour traiter des données tabulaires dans des fichiers PDF ?

PHPz

Sep 27, 2023 pm 03:04 PM

python pdf nlp

如何利用Python for NLP处理PDF文件中的表格数据？

Comment utiliser Python pour le NLP pour traiter des données tabulaires dans des fichiers PDF ?

Résumé : Le traitement du langage naturel (NLP) est un domaine important impliquant l'informatique et l'intelligence artificielle, et le traitement de données tabulaires dans des fichiers PDF est une tâche courante en PNL. Cet article explique comment utiliser Python et certaines bibliothèques couramment utilisées pour traiter les données tabulaires dans les fichiers PDF, notamment l'extraction de données tabulaires, le prétraitement et la conversion des données.

Mots clés : Python, NLP, PDF, données tabulaires

1. Introduction

Avec le développement de la technologie, les fichiers PDF sont devenus un format de document courant. Dans ces fichiers PDF, les données tabulaires sont largement utilisées dans divers domaines, notamment la finance, les soins médicaux et l'analyse des données. Par conséquent, la manière d’extraire et de traiter ces données tabulaires à partir de fichiers PDF est devenue une question populaire.

Python est un langage de programmation puissant qui fournit de riches bibliothèques et outils pour résoudre divers problèmes. Dans le domaine du NLP, Python dispose de nombreuses excellentes bibliothèques, telles que PDFMiner, Tabula et Pandas, etc. Ces bibliothèques peuvent nous aider à traiter les données tabulaires dans les fichiers PDF.

2. Installer des bibliothèques

Avant de commencer à utiliser Python pour traiter des données tabulaires dans des fichiers PDF, nous devons installer certaines bibliothèques nécessaires. Nous pouvons utiliser le gestionnaire de packages pip pour installer ces bibliothèques. Ouvrez une fenêtre de terminal ou de ligne de commande et entrez la commande suivante :

pip install pdfminer.six
pip install tabula-py
pip install pandas

Copier après la connexion

3. Extraire les données du tableau

Tout d'abord, nous devons extraire les données du tableau dans le fichier PDF. Nous pouvons utiliser la bibliothèque PDFMiner pour réaliser cette fonctionnalité. Voici un exemple de code pour extraire des données tabulaires à l'aide de la bibliothèque PDFMiner :

import pdfminer
import io
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage

def extract_text_from_pdf(pdf_path):
    resource_manager = PDFResourceManager()
    output_string = io.StringIO()
    laparams = LAParams()
    with TextConverter(resource_manager, output_string, laparams=laparams) as converter:
        with open(pdf_path, 'rb') as file:
            interpreter = PDFPageInterpreter(resource_manager, converter)
            for page in PDFPage.get_pages(file):
                interpreter.process_page(page)
    
    text = output_string.getvalue()
    output_string.close()
    return text

pdf_path = "example.pdf"
pdf_text = extract_text_from_pdf(pdf_path)
print(pdf_text)

Copier après la connexion

Dans cet exemple, nous créons d'abord un objet PDFResourceManager, un objet TextConverter et un autre objet nécessaire. . Nous ouvrons ensuite le fichier PDF et utilisons PDFPageInterpreter pour interpréter le fichier page par page. Enfin, nous stockons les données texte extraites dans une variable et les renvoyons. PDFResourceManager对象、一个TextConverter对象以及一些其他必要的对象。然后，我们打开PDF文件并使用PDFPageInterpreter逐页解释文件。最后，我们将提取的文本数据存储在一个变量中并返回。

四、数据预处理

在提取表格数据后，我们需要进行一些数据预处理，以便更好地处理这些数据。常见的预处理任务包括去除空格、清洗数据、处理缺失值等。这里我们使用Pandas库来进行数据预处理。

下面是一个使用Pandas库进行数据预处理的示例代码：

import pandas as pd

def preprocess_data(data):
    df = pd.DataFrame(data)
    df = df.applymap(lambda x: x.strip())
    df = df.dropna()
    df = df.reset_index(drop=True)
    
    return df

data = [
    ["Name", "Age", "Gender"],
    ["John", "25", "Male"],
    ["Lisa", "30", "Female"],
    ["Mike", "28", "Male"],
]

df = preprocess_data(data)
print(df)

Copier après la connexion

在这个示例中，我们首先将提取的数据存储在一个二维列表中。然后，我们创建一个Pandas的DataFrame对象，并对其进行一系列预处理操作，包括去除空格、清洗数据、处理缺失值。最后，我们将预处理后的数据打印出来。

五、数据转换

在进行了数据预处理之后，我们可以将表格数据转换为其他常见的数据结构，如JSON、CSV或Excel。下面是一个使用Pandas库将数据转换为CSV文件的示例代码：

def convert_data_to_csv(df, csv_path):
    df.to_csv(csv_path, index=False)

csv_path = "output.csv"
convert_data_to_csv(df, csv_path)

Copier après la connexion

在这个示例中，我们使用Pandas的to_csv()

4. Prétraitement des données

Après avoir extrait les données du tableau, nous devons effectuer un prétraitement des données afin de mieux traiter les données. Les tâches de prétraitement courantes incluent la suppression d'espaces, le nettoyage des données, la gestion des valeurs manquantes, etc. Ici, nous utilisons la bibliothèque Pandas pour le prétraitement des données.

Voici un exemple de code pour le prétraitement des données à l'aide de la bibliothèque Pandas :

rrreee

Dans cet exemple, nous stockons d'abord les données extraites dans une liste bidimensionnelle. Ensuite, nous créons un objet Pandas DataFrame et effectuons une série d'opérations de prétraitement dessus, notamment la suppression des espaces, le nettoyage des données et la gestion des valeurs manquantes. Enfin, nous imprimons les données prétraitées.

5. Conversion des données

Après le prétraitement des données, nous pouvons convertir les données tabulaires en d'autres structures de données courantes, telles que JSON, CSV ou Excel. Voici un exemple de code pour convertir des données en fichier CSV à l'aide de la bibliothèque Pandas :
Dans cet exemple, nous utilisons la fonction to_csv() de Pandas pour convertir les données en fichier CSV et les enregistrer dans le chemin spécifié.
6. Résumé
Grâce à l'introduction de cet article, nous avons appris à utiliser Python et certaines bibliothèques couramment utilisées pour traiter des données tabulaires dans des fichiers PDF. Nous utilisons d'abord la bibliothèque PDFMiner pour extraire des données texte dans des fichiers PDF, puis utilisons la bibliothèque Pandas pour prétraiter et transformer les données extraites.

Bien entendu, les données tabulaires des fichiers PDF peuvent avoir des structures et des formats différents, ce qui nous oblige à procéder aux ajustements et aux traitements appropriés en fonction de la situation spécifique. J'espère que cet article vous a fourni de l'aide et des conseils pour traiter les données tabulaires dans les fichiers PDF. 🎜🎜Références : 🎜🎜🎜https://realpython.com/pdf-python/🎜🎜https://pandas.pydata.org/🎜🎜https://pdfminer-docs.readthedocs.io/🎜🎜https : / /tabula-py.readthedocs.io/🎜🎜

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

1 Il y a quelques mois By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7514

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Le plan Python de 2 heures: une approche réaliste Apr 11, 2025 am 12:04 AM

Vous pouvez apprendre les concepts de programmation de base et les compétences de Python dans les 2 heures. 1. Apprenez les variables et les types de données, 2. Flux de contrôle maître (instructions et boucles conditionnelles), 3. Comprenez la définition et l'utilisation des fonctions, 4. Démarrez rapidement avec la programmation Python via des exemples simples et des extraits de code.

Comment lire la file d'attente redis Apr 10, 2025 pm 10:12 PM

Pour lire une file d'attente à partir de Redis, vous devez obtenir le nom de la file d'attente, lire les éléments à l'aide de la commande LPOP et traiter la file d'attente vide. Les étapes spécifiques sont les suivantes: Obtenez le nom de la file d'attente: Nommez-le avec le préfixe de "Fitre:" tel que "Fitre: My-Quyue". Utilisez la commande LPOP: éjectez l'élément de la tête de la file d'attente et renvoyez sa valeur, telle que la file d'attente LPOP: My-Queue. Traitement des files d'attente vides: si la file d'attente est vide, LPOP renvoie NIL et vous pouvez vérifier si la file d'attente existe avant de lire l'élément.

Comment afficher la version serveur de redis Apr 10, 2025 pm 01:27 PM

Question: Comment afficher la version Redis Server? Utilisez l'outil de ligne de commande redis-Cli --version pour afficher la version du serveur connecté. Utilisez la commande Info Server pour afficher la version interne du serveur et devez analyser et retourner des informations. Dans un environnement de cluster, vérifiez la cohérence de la version de chaque nœud et peut être vérifiée automatiquement à l'aide de scripts. Utilisez des scripts pour automatiser les versions de visualisation, telles que la connexion avec les scripts Python et les informations d'impression.

Comment démarrer le serveur avec redis Apr 10, 2025 pm 08:12 PM

Les étapes pour démarrer un serveur Redis incluent: Installez Redis en fonction du système d'exploitation. Démarrez le service Redis via Redis-Server (Linux / MacOS) ou Redis-Server.exe (Windows). Utilisez la commande redis-Cli Ping (Linux / MacOS) ou redis-Cli.exe Ping (Windows) pour vérifier l'état du service. Utilisez un client redis, tel que redis-cli, python ou node.js pour accéder au serveur.

Comment définir la taille de la mémoire Redis en fonction des besoins de l'entreprise? Apr 10, 2025 pm 02:18 PM

Le réglage de la taille de la mémoire redis doit prendre en compte les facteurs suivants: volume de données et tendance de croissance: estimer la taille et le taux de croissance des données stockées. Type de données: différents types (tels que les listes, les hachages) occupent une mémoire différente. Politique de mise en cache: le cache complet, le cache partiel et les politiques de phasage affectent l'utilisation de la mémoire. Péx commercial: laissez suffisamment de mémoire pour faire face aux pics de trafic.

Quel est l'impact de la persistance redis sur la mémoire? Apr 10, 2025 pm 02:15 PM

Redis Persistance prendra une mémoire supplémentaire, RDB augmente temporairement l'utilisation de la mémoire lors de la génération d'instantanés, et AOF continue de prendre de la mémoire lors de l'ajout de journaux. Les facteurs d'influence comprennent le volume des données, la politique de persistance et la configuration de Redis. Pour atténuer l'impact, vous pouvez raisonnablement configurer les stratégies d'instantané RDB, optimiser la configuration AOF, mettre à niveau le matériel et le surveiller l'utilisation de la mémoire. En outre, il est crucial de trouver un équilibre entre les performances et la sécurité des données.

Python vs C: applications et cas d'utilisation comparés Apr 12, 2025 am 12:01 AM

Python convient à la science des données, au développement Web et aux tâches d'automatisation, tandis que C convient à la programmation système, au développement de jeux et aux systèmes intégrés. Python est connu pour sa simplicité et son écosystème puissant, tandis que C est connu pour ses capacités de contrôle élevées et sous-jacentes.

Quels sont les paramètres de configuration de la mémoire redis? Apr 10, 2025 pm 02:03 PM

** Le paramètre central de la configuration de la mémoire redis est MaxMemory, qui limite la quantité de mémoire que Redis peut utiliser. Lorsque cette limite est dépassée, Redis exécute une stratégie d'élimination selon maxmemory-policy, notamment: Noeviction (rejeter directement l'écriture), AllKeys-LRU / Volatile-LRU (éliminé par LRU), AllKeys-Random / Volatile-Random (éliminé par élimination aléatoire) et TTL volatile (temps d'expiration). D'autres paramètres connexes incluent des échantillons maxmemory (quantité d'échantillon LRU), compression RDB

See all articles