Inhaltsverzeichnis
Beispiel 2
Zusammenfassung
Heim Backend-Entwicklung Python-Tutorial So crawlen Sie Tabellendaten aus PDF-Dateien in Python (Codebeispiel)

So crawlen Sie Tabellendaten aus PDF-Dateien in Python (Codebeispiel)

Oct 24, 2018 pm 05:15 PM
python

Der Inhalt dieses Artikels handelt davon, wie Python tabellarische Daten aus PDF-Dateien crawlen kann. Ich hoffe, dass er für Sie hilfreich ist.

  Dieser Artikel zeigt einen etwas anderen Crawler.
In der Vergangenheit haben unsere Crawler Daten aus dem Internet gecrawlt, da Webseiten im Allgemeinen in HTML-, CSS- und JavaScript-Codes geschrieben sind. Daher gibt es eine große Anzahl ausgereifter Technologien zum Crawlen verschiedener Daten in Webseiten. Diesmal handelt es sich bei den Dokumenten, die wir crawlen müssen, um PDF-Dateien. In diesem Artikel wird gezeigt, wie Sie das Camelot-Modul von Python verwenden, um Tabellendaten aus PDF-Dateien zu crawlen.
In unserem täglichen Leben und Arbeiten sind PDF-Dateien zweifellos eines der am häufigsten verwendeten Dateiformate. Von Lehrbüchern und Kursunterlagen bis hin zu Verträgen und Planungsdokumenten können wir alle dieses Dateiformat sehen. Aber wie man Tabellen aus PDF-Dateien extrahiert, ist ein großes Problem. Weil es in PDF keine interne Darstellung zur Darstellung einer Tabelle gibt. Dies macht es schwierig, tabellarische Daten für die Analyse zu extrahieren. Wie crawlen wir also Tabellendaten aus PDF?
 Die Antwort ist Pythons Camelot-Modul!
Camelot ist ein Python-Modul, mit dem jeder problemlos tabellarische Daten aus PDF-Dateien extrahieren kann. Sie können den folgenden Befehl verwenden, um das Camelot-Modul zu installieren (die Installation dauert lange):

pip install camelot-py
Nach dem Login kopieren

Die offizielle Dokumentationsadresse des Camelot-Moduls lautet: https://camelot-py.readthedoc... .
 Im Folgenden wird gezeigt, wie Sie das Camelot-Modul zum Crawlen tabellarischer Daten aus PDF-Dateien verwenden.

Beispiel 1

  Schauen wir uns zunächst ein einfaches Beispiel an: zB.pdf, die gesamte Datei hat nur eine Seite und es gibt nur eine Tabelle auf dieser Seite, wie folgt:

So crawlen Sie Tabellendaten aus PDF-Dateien in Python (Codebeispiel)

Verwenden Sie den folgenden Python-Code, um die Tabelle in der PDF-Datei zu extrahieren:

import camelot

# 从PDF文件中提取表格
tables = camelot.read_pdf('E://eg.pdf', pages='1', flavor='stream')

# 表格信息
print(tables)
print(tables[0])
# 表格数据
print(tables[0].data)
Nach dem Login kopieren

Das Ausgabeergebnis ist:

<tablelist>
<table>
[['ID', '姓名', '城市', '性别'], ['1', 'Alex', 'Shanghai', 'M'], ['2', 'Bob', 'Beijing', 'F'], ['3', 'Cook', 'New York', 'M']] <p>Camelot.read_pdf() ist die Funktion von Camelot zum Extrahieren von Daten aus einer Tabelle. Die Eingabeparameter sind der Pfad der PDF-Datei, die Seitenzahl (Seiten) und die Tabellenanalysemethode (es gibt zwei Methoden). Strom und Gitter). Für die Tabellenanalysemethode ist Lattice die Standardmethode, und die Stream-Methode analysiert standardmäßig die gesamte PDF-Seite als Tabelle. Wenn Sie den Bereich auf der analysierten Seite angeben müssen, können Sie den Parameter table_area verwenden. <br> Der Vorteil des Camelot-Moduls besteht darin, dass es Funktionen zum direkten Konvertieren extrahierter Tabellendaten in Pandas, CSV, JSON und HTML bereitstellt, z. B. Tabellen[0].df, Tabellen[0].to_csv() Funktion warten. Nehmen wir als Beispiel die Ausgabe einer CSV-Datei: </p>
<pre class="brush:php;toolbar:false">import camelot

# 从PDF文件中提取表格
tables = camelot.read_pdf('E://eg.pdf', pages='1', flavor='stream')

# 将表格数据转化为csv文件
tables[0].to_csv('E://eg.csv')
Nach dem Login kopieren

Die resultierende CSV-Datei sieht wie folgt aus:

So crawlen Sie Tabellendaten aus PDF-Dateien in Python (Codebeispiel)

Beispiel 2

In Beispiel 2 extrahieren wir Tabellendaten in einem bestimmten Bereich der PDF-Seite. Die Seiten (Teile) der PDF-Datei lauten wie folgt:

So crawlen Sie Tabellendaten aus PDF-Dateien in Python (Codebeispiel)

Um die einzige Tabelle auf der gesamten Seite zu extrahieren, müssen wir sie lokalisieren der Standort der Tabelle. Das Koordinatensystem der PDF-Datei unterscheidet sich von dem des Bildes. Es verwendet den Scheitelpunkt der unteren linken Ecke als Ursprung, die x-Achse nach rechts und die y-Achse nach oben Die gesamte Seite kann über den folgenden Python-Code ausgegeben werden:

import camelot

# 从PDF中提取表格
tables = camelot.read_pdf('G://Statistics-Fundamentals-Succinctly.pdf', pages='53', \
                          flavor='stream')

# 绘制PDF文档的坐标,定位表格所在的位置
tables[0].plot('text')
Nach dem Login kopieren

Das Ausgabeergebnis ist:

UserWarning: No tables found on page-53 [stream.py:292]
Nach dem Login kopieren

Der gesamte Code hat die Tabelle nicht gefunden. Dies liegt daran, dass die Stream-Methode die gesamte PDF-Seite behandelt standardmäßig als Tabelle, daher wurde die Tabelle nicht gefunden. Das Bild der gezeichneten Seitenkoordinaten sieht jedoch wie folgt aus:

So crawlen Sie Tabellendaten aus PDF-Dateien in Python (Codebeispiel)

Wenn wir die vorherige PDF-Seite sorgfältig vergleichen, können wir leicht feststellen, dass die Koordinaten der oberen Die linke Ecke des der Tabelle entsprechenden Bereichs ist (50.620) und die Koordinaten der unteren rechten Ecke sind (500.540). Wir fügen den Parameter „table_area“ zur Funktion „read_pdf()“ hinzu. Der vollständige Python-Code lautet wie folgt:

import camelot

# 识别指定区域中的表格数据
tables = camelot.read_pdf('G://Statistics-Fundamentals-Succinctly.pdf', pages='53', \
                          flavor='stream', table_area=['50,620,500,540'])

# 绘制PDF文档的坐标,定位表格所在的位置
table_df = tables[0].df

print(type(table_df))
print(table_df.head(n=6))
Nach dem Login kopieren

Das Ausgabeergebnis lautet:

<class>
         0               1                2           3
0  Student  Pre-test score  Post-test score  Difference
1        1              70               73           3
2        2              64               65           1
3        3              69               63          -6
4        …               …                …           …
5       34              82               88           6</class>
Nach dem Login kopieren

Zusammenfassung

zur spezifischen Identifizierung von PDF Seiten Beim Erstellen einer Tabelle gibt es neben den Parametern zur Angabe des Bereichs auch Parameter wie Hoch- und Tiefstellung, Zellenzusammenführung usw. Eine detaillierte Verwendung finden Sie auf der offiziellen Dokument-Website von Camelot: https://camelot- py.readthedoc....

Das obige ist der detaillierte Inhalt vonSo crawlen Sie Tabellendaten aus PDF-Dateien in Python (Codebeispiel). Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

PHP und Python: Code Beispiele und Vergleich PHP und Python: Code Beispiele und Vergleich Apr 15, 2025 am 12:07 AM

PHP und Python haben ihre eigenen Vor- und Nachteile, und die Wahl hängt von den Projektbedürfnissen und persönlichen Vorlieben ab. 1.PHP eignet sich für eine schnelle Entwicklung und Wartung großer Webanwendungen. 2. Python dominiert das Gebiet der Datenwissenschaft und des maschinellen Lernens.

Python gegen JavaScript: Community, Bibliotheken und Ressourcen Python gegen JavaScript: Community, Bibliotheken und Ressourcen Apr 15, 2025 am 12:16 AM

Python und JavaScript haben ihre eigenen Vor- und Nachteile in Bezug auf Gemeinschaft, Bibliotheken und Ressourcen. 1) Die Python-Community ist freundlich und für Anfänger geeignet, aber die Front-End-Entwicklungsressourcen sind nicht so reich wie JavaScript. 2) Python ist leistungsstark in Bibliotheken für Datenwissenschaft und maschinelles Lernen, während JavaScript in Bibliotheken und Front-End-Entwicklungsbibliotheken und Frameworks besser ist. 3) Beide haben reichhaltige Lernressourcen, aber Python eignet sich zum Beginn der offiziellen Dokumente, während JavaScript mit Mdnwebdocs besser ist. Die Wahl sollte auf Projektbedürfnissen und persönlichen Interessen beruhen.

Detaillierte Erklärung des Docker -Prinzips Detaillierte Erklärung des Docker -Prinzips Apr 14, 2025 pm 11:57 PM

Docker verwendet Linux -Kernel -Funktionen, um eine effiziente und isolierte Anwendungsumgebung zu bieten. Sein Arbeitsprinzip lautet wie folgt: 1. Der Spiegel wird als schreibgeschützte Vorlage verwendet, die alles enthält, was Sie für die Ausführung der Anwendung benötigen. 2. Das Union File System (UnionFS) stapelt mehrere Dateisysteme, speichert nur die Unterschiede, speichert Platz und beschleunigt. 3. Der Daemon verwaltet die Spiegel und Container, und der Kunde verwendet sie für die Interaktion. 4. Namespaces und CGroups implementieren Container -Isolation und Ressourcenbeschränkungen; 5. Mehrere Netzwerkmodi unterstützen die Containerverbindung. Nur wenn Sie diese Kernkonzepte verstehen, können Sie Docker besser nutzen.

Kann Visual Studio -Code in Python verwendet werden Kann Visual Studio -Code in Python verwendet werden Apr 15, 2025 pm 08:18 PM

VS -Code kann zum Schreiben von Python verwendet werden und bietet viele Funktionen, die es zu einem idealen Werkzeug für die Entwicklung von Python -Anwendungen machen. Sie ermöglichen es Benutzern: Installation von Python -Erweiterungen, um Funktionen wie Code -Abschluss, Syntax -Hervorhebung und Debugging zu erhalten. Verwenden Sie den Debugger, um Code Schritt für Schritt zu verfolgen, Fehler zu finden und zu beheben. Integrieren Sie Git für die Versionskontrolle. Verwenden Sie Tools für die Codeformatierung, um die Codekonsistenz aufrechtzuerhalten. Verwenden Sie das Lining -Tool, um potenzielle Probleme im Voraus zu erkennen.

So führen Sie Programme in der terminalen VSCODE aus So führen Sie Programme in der terminalen VSCODE aus Apr 15, 2025 pm 06:42 PM

Im VS -Code können Sie das Programm im Terminal in den folgenden Schritten ausführen: Erstellen Sie den Code und öffnen Sie das integrierte Terminal, um sicherzustellen, dass das Codeverzeichnis mit dem Terminal Working -Verzeichnis übereinstimmt. Wählen Sie den Befehl aus, den Befehl ausführen, gemäß der Programmiersprache (z. B. Pythons Python your_file_name.py), um zu überprüfen, ob er erfolgreich ausgeführt wird, und Fehler auflösen. Verwenden Sie den Debugger, um die Debugging -Effizienz zu verbessern.

Ist die VSCODE -Erweiterung bösartig? Ist die VSCODE -Erweiterung bösartig? Apr 15, 2025 pm 07:57 PM

VS -Code -Erweiterungen stellen böswillige Risiken dar, wie das Verstecken von böswilligem Code, das Ausbeutetieren von Schwachstellen und das Masturbieren als legitime Erweiterungen. Zu den Methoden zur Identifizierung böswilliger Erweiterungen gehören: Überprüfung von Verlegern, Lesen von Kommentaren, Überprüfung von Code und Installation mit Vorsicht. Zu den Sicherheitsmaßnahmen gehören auch: Sicherheitsbewusstsein, gute Gewohnheiten, regelmäßige Updates und Antivirensoftware.

Kann gegen Code in Windows 8 ausgeführt werden Kann gegen Code in Windows 8 ausgeführt werden Apr 15, 2025 pm 07:24 PM

VS -Code kann unter Windows 8 ausgeführt werden, aber die Erfahrung ist möglicherweise nicht großartig. Stellen Sie zunächst sicher, dass das System auf den neuesten Patch aktualisiert wurde, und laden Sie dann das VS -Code -Installationspaket herunter, das der Systemarchitektur entspricht und sie wie aufgefordert installiert. Beachten Sie nach der Installation, dass einige Erweiterungen möglicherweise mit Windows 8 nicht kompatibel sind und nach alternativen Erweiterungen suchen oder neuere Windows -Systeme in einer virtuellen Maschine verwenden müssen. Installieren Sie die erforderlichen Erweiterungen, um zu überprüfen, ob sie ordnungsgemäß funktionieren. Obwohl VS -Code unter Windows 8 möglich ist, wird empfohlen, auf ein neueres Windows -System zu upgraden, um eine bessere Entwicklungserfahrung und Sicherheit zu erzielen.

Python: Automatisierung, Skript- und Aufgabenverwaltung Python: Automatisierung, Skript- und Aufgabenverwaltung Apr 16, 2025 am 12:14 AM

Python zeichnet sich in Automatisierung, Skript und Aufgabenverwaltung aus. 1) Automatisierung: Die Sicherungssicherung wird durch Standardbibliotheken wie OS und Shutil realisiert. 2) Skriptschreiben: Verwenden Sie die PSUTIL -Bibliothek, um die Systemressourcen zu überwachen. 3) Aufgabenverwaltung: Verwenden Sie die Zeitplanbibliothek, um Aufgaben zu planen. Die Benutzerfreundlichkeit von Python und die Unterstützung der reichhaltigen Bibliothek machen es zum bevorzugten Werkzeug in diesen Bereichen.

See all articles