Wie kann ich strukturierte Tabellen aus einem PDF mit Schriftartproblemen und nicht-englischem Text extrahieren?

Linda Hamilton
Freigeben: 2024-10-30 16:55:03
Original
290 Leute haben es durchsucht

How Can I Extract Structured Tables from a PDF with Font Issues and Non-English Text?

Strukturierte Tabellen aus PDF-Dokumenten extrahieren

Frage:

Obwohl Sie verschiedene Methoden ausprobiert haben, können Sie keine strukturierten Tabellen extrahieren Daten aus PDF-Dokumenten. Insbesondere die Konvertierung der PDF-Datei in HTML führt aufgrund von Schriftartproblemen und nicht-englischem Text zu unbefriedigenden Ergebnissen. Darüber hinaus ist das Extrahieren auf Basis von XY-Koordinaten unpraktisch, da die Tabellenplatzierungen in zukünftigen PDFs möglicherweise variieren.

Expertenanalyse:

Im Gegensatz zu strukturierten Tabellenkalkulationen fehlen PDFs explizite Tabellendaten. Stattdessen stellen sie eine Kombination aus Linien und Zeichenglyphen dar, die der Mensch als Tabellen wahrnimmt. Das Extrahieren tabellarischer Daten erfordert rechnerische Erkennungstechniken, die der menschlichen Wahrnehmung ähneln.

Unter bestimmten Umständen, wenn PDFs konsequent einem bestimmten Format folgen, kann es möglich sein, Muster zu erkennen und Regeln für die Erkennung von Tabelleninhalten zu entwickeln. Das bereitgestellte PDF-Dokument stellt jedoch eine weitere Herausforderung dar:

Problem mit eingebetteten Schriftarten:

Das PDF enthält Text, der nicht mit der beanspruchten WinAnsiEncoding codiert ist. Diese Diskrepanz führt dazu, dass unvorhersehbare Zeichen extrahiert werden, was das direkte Abrufen von Text unpraktisch macht.

Einschränkungen bei der Textextraktion:

Kopieren und Einfügen aus Adobe Reader, einem zuverlässigen Textextraktionstool, liefert auch keine aussagekräftigen Ergebnisse. Dies weist darauf hin, dass eine Textextraktion ohne optische Zeichenerkennung (OCR) in diesem Fall nicht möglich ist.

Daher ist die Extraktion strukturierter Tabellen aus Ihrem PDF-Dokument ohne Rückgriff auf OCR derzeit nicht möglich.

Das obige ist der detaillierte Inhalt vonWie kann ich strukturierte Tabellen aus einem PDF mit Schriftartproblemen und nicht-englischem Text extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!