


Comment explorer des données tabulaires à partir de fichiers PDF en Python (exemple de code)
Le contenu de cet article explique comment Python peut explorer les données tabulaires à partir de fichiers PDF (exemples de code). Il a une certaine valeur de référence. J'espère que cela vous sera utile.
Cet article montrera un robot légèrement différent.
Dans le passé, nos robots d'exploration exploraient les données d'Internet, car les pages Web sont généralement écrites en codes HTML, CSS et JavaScript. Il existe donc un grand nombre de technologies matures pour explorer diverses données dans les pages Web. Cette fois, les documents que nous devons explorer sont des fichiers PDF. Cet article montrera comment utiliser le module camelot de Python pour explorer les données tabulaires à partir de fichiers PDF.
Dans notre vie quotidienne et notre travail, les fichiers PDF sont sans aucun doute l'un des formats de fichiers les plus couramment utilisés. Des manuels et didacticiels aux contrats et documents de planification, nous pouvons tous voir ce format de fichier. Mais comment extraire des tableaux de fichiers PDF est un gros problème. Parce qu'il n'y a pas de représentation interne en PDF pour représenter un tableau. Cela rend les données tabulaires difficiles à extraire pour l’analyse. Alors, comment analyser les données d’un tableau à partir d’un PDF ?
La réponse est le module camelot de Python !
Camelot est un module Python qui permet à quiconque d'extraire facilement des données tabulaires à partir de fichiers PDF. Vous pouvez utiliser la commande suivante pour installer le module camelot (l'installation prend beaucoup de temps) :
pip install camelot-py
L'adresse officielle de la documentation du module camelot est : https://camelot-py.readthedoc. ...
Ce qui suit montrera comment utiliser le module camelot pour explorer les données tabulaires à partir de fichiers PDF.
Exemple 1
Tout d'abord, regardons un exemple simple : par exemple.pdf, le fichier entier n'a qu'une seule page, et il n'y a qu'un seul tableau dans cette page, comme suit :
Utilisez le code Python suivant pour extraire le tableau dans le fichier PDF :
import camelot # 从PDF文件中提取表格 tables = camelot.read_pdf('E://eg.pdf', pages='1', flavor='stream') # 表格信息 print(tables) print(tables[0]) # 表格数据 print(tables[0].data)
Le résultat de sortie est :
<tablelist> <table> [['ID', '姓名', '城市', '性别'], ['1', 'Alex', 'Shanghai', 'M'], ['2', 'Bob', 'Beijing', 'F'], ['3', 'Cook', 'New York', 'M']]<p>En analysant le code, camelot.read_pdf() est la fonction de camelot pour extraire les données de la table. Les paramètres d'entrée sont le chemin du fichier PDF, le numéro de page (pages) et la méthode d'analyse de la table (là-bas). sont deux méthodes, flux et treillis). Pour la méthode d'analyse de table, la méthode par défaut est lattice et la méthode stream analysera la page PDF entière sous forme de tableau par défaut. Si vous devez spécifier la zone dans la page analysée, vous pouvez utiliser le paramètre table_area. <br> La commodité du module camelot est qu'il fournit des fonctions pour convertir directement les données de table extraites en pandas, csv, JSON et html, telles que la fonction tables[0].df, tables[0].to_csv(). Prenons comme exemple la sortie d'un fichier csv : </p> <pre class="brush:php;toolbar:false">import camelot # 从PDF文件中提取表格 tables = camelot.read_pdf('E://eg.pdf', pages='1', flavor='stream') # 将表格数据转化为csv文件 tables[0].to_csv('E://eg.csv')
Le fichier csv résultant est le suivant :
Exemple 2
Dans l'exemple 2, nous extrairons les données du tableau dans une certaine zone de la page PDF. Les pages (parties) du fichier PDF sont les suivantes :
Afin d'extraire le seul tableau de la page entière, nous devons localiser l'emplacement du tableau. Le système de coordonnées du fichier PDF est différent de celui de l'image. Il prend le sommet du coin inférieur gauche comme origine, l'axe des x vers la droite et l'axe des y vers le haut. la page entière peut être générée via le code Python suivant :
import camelot # 从PDF中提取表格 tables = camelot.read_pdf('G://Statistics-Fundamentals-Succinctly.pdf', pages='53', \ flavor='stream') # 绘制PDF文档的坐标,定位表格所在的位置 tables[0].plot('text')
Le résultat de sortie est :
UserWarning: No tables found on page-53 [stream.py:292]
Le code entier ne trouve pas la table C'est parce que la méthode stream traite. la page PDF entière sous forme de tableau par défaut, le tableau n'est donc pas trouvé. Mais l'image des coordonnées de la page dessinée est la suivante :
En comparant attentivement la page PDF précédente, on constate facilement que les coordonnées de la page supérieure Le coin gauche de la zone correspondant au tableau est (50 620), et les coordonnées du coin inférieur droit sont (500 540). Nous ajoutons le paramètre table_area à la fonction read_pdf(). Le code Python complet est le suivant :
import camelot # 识别指定区域中的表格数据 tables = camelot.read_pdf('G://Statistics-Fundamentals-Succinctly.pdf', pages='53', \ flavor='stream', table_area=['50,620,500,540']) # 绘制PDF文档的坐标,定位表格所在的位置 table_df = tables[0].df print(type(table_df)) print(table_df.head(n=6))
Le résultat de sortie est :
<class> 0 1 2 3 0 Student Pre-test score Post-test score Difference 1 1 70 73 3 2 2 64 65 1 3 3 69 63 -6 4 … … … … 5 34 82 88 6</class>
Résumé
Dans l'identification spécifique Lors de la création d'un tableau dans une page PDF, en plus du paramètre de spécification de la zone, il existe également des paramètres tels que l'exposant et l'indice, la fusion de cellules, etc. Pour une utilisation détaillée, veuillez vous référer au site Web du document officiel de Camelot : https://camelot-py.readthedoc...
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Une application qui convertit le XML directement en PDF ne peut être trouvée car ce sont deux formats fondamentalement différents. XML est utilisé pour stocker des données, tandis que PDF est utilisé pour afficher des documents. Pour terminer la transformation, vous pouvez utiliser des langages de programmation et des bibliothèques telles que Python et ReportLab pour analyser les données XML et générer des documents PDF.

Utiliser la plupart des éditeurs de texte pour ouvrir des fichiers XML; Si vous avez besoin d'un affichage d'arbre plus intuitif, vous pouvez utiliser un éditeur XML, tel que Oxygen XML Editor ou XMLSPY; Si vous traitez les données XML dans un programme, vous devez utiliser un langage de programmation (tel que Python) et des bibliothèques XML (telles que XML.ETREE.ElementTree) pour analyser.

Les outils de mise en forme XML peuvent taper le code en fonction des règles pour améliorer la lisibilité et la compréhension. Lors de la sélection d'un outil, faites attention aux capacités de personnalisation, en gérant des circonstances spéciales, des performances et de la facilité d'utilisation. Les types d'outils couramment utilisés incluent des outils en ligne, des plug-ins IDE et des outils de ligne de commande.

Il n'y a pas d'outil XML à PDF simple et direct sur mobile. Le processus de visualisation des données requis implique une compréhension et un rendu complexes des données, et la plupart des outils dits "gratuits" sur le marché ont une mauvaise expérience. Il est recommandé d'utiliser des outils côté informatique ou d'utiliser des services cloud, ou de développer vous-même des applications pour obtenir des effets de conversion plus fiables.

Convertir XML en PDF avec une qualité de haute qualité sur votre téléphone mobile nécessite: analyser le XML dans le cloud et générer des PDF à l'aide d'une plate-forme informatique sans serveur. Choisissez un analyseur XML efficace et une bibliothèque de génération PDF. Gérer correctement les erreurs. Faites une utilisation complète de la puissance de cloud computing pour éviter les tâches lourdes sur votre téléphone. Ajustez la complexité en fonction des exigences, notamment le traitement des structures XML complexes, la génération de PDF de plusieurs pages et l'ajout d'images. Imprimez les informations du journal pour aider à déboguer. Optimiser les performances, sélectionner des analyseurs efficaces et des bibliothèques PDF et peut utiliser une programmation asynchrone ou des données XML prétraitées. Assurez-vous une bonne qualité de code et maintenabilité.

La vitesse du XML mobile à PDF dépend des facteurs suivants: la complexité de la structure XML. Méthode de conversion de configuration du matériel mobile (bibliothèque, algorithme) Méthodes d'optimisation de la qualité du code (sélectionnez des bibliothèques efficaces, optimiser les algorithmes, les données de cache et utiliser le multi-threading). Dans l'ensemble, il n'y a pas de réponse absolue et elle doit être optimisée en fonction de la situation spécifique.

Il n'est pas facile de convertir XML en PDF directement sur votre téléphone, mais il peut être réalisé à l'aide des services cloud. Il est recommandé d'utiliser une application mobile légère pour télécharger des fichiers XML et recevoir des PDF générés, et de les convertir avec des API Cloud. Les API Cloud utilisent des services informatiques sans serveur et le choix de la bonne plate-forme est crucial. La complexité, la gestion des erreurs, la sécurité et les stratégies d'optimisation doivent être prises en compte lors de la gestion de l'analyse XML et de la génération de PDF. L'ensemble du processus nécessite que l'application frontale et l'API back-end fonctionnent ensemble, et il nécessite une certaine compréhension d'une variété de technologies.

Pour les petits fichiers XML, vous pouvez remplacer directement le contenu d'annotation par un éditeur de texte; Pour les fichiers volumineux, il est recommandé d'utiliser l'analyseur XML pour le modifier pour garantir l'efficacité et la précision. Soyez prudent lors de la suppression des commentaires XML, le maintien des commentaires aide généralement à coder la compréhension et la maintenance. Les conseils avancés fournissent un exemple de code Python pour modifier les commentaires à l'aide de l'analyseur XML, mais l'implémentation spécifique doit être ajustée en fonction de la bibliothèque XML utilisée. Faites attention aux problèmes d'encodage lors de la modification des fichiers XML. Il est recommandé d'utiliser le codage UTF-8 et de spécifier le format de codage.
