


C# implementiert die Funktion zum Konvertieren von PDF in Text
Update
27. Februar 2014: In diesem Artikel wurde ursprünglich nur die Verwendung von PDFBox zum Parsen von PDF-Dateien beschrieben. Es wurde nun um Routinen zur Verwendung von IFilter und iTextSharp erweitert.
Dieser Artikel und das entsprechende Visual Studio-Projekt wurden auf die neueste PDFBox-Version (1.8.4) aktualisiert. Das komplette Projekt mit allen Abhängigkeiten kann von http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ heruntergeladen werden (das Entfernen von Abhängigkeiten ist etwas knifflig).
So analysieren Sie PDF-Dateien
Die wichtigsten Methoden zum Extrahieren von Text aus PDF-Dateien in .NET sind:
Microsofts IFilter-Schnittstelle und Adobes IFilter-Implementierung; >iTextSharp;
PDFBox.
Leider ist keine dieser PDF-Parsing-Lösungen perfekt. Wir besprechen diese Methoden im Folgenden.
Adobe PDF IFilter
Um die IFilter-Schnittstelle zum Parsen von PDF-Dateien verwenden zu können, benötigen Sie:
Windows 2000 oder höher
Adobe Acrobat oder Reader 7.0.5+ (oder separater Adobe PDF IFilter [adobe.com])
IFilter COM-Wrapper-Klasse [dotlucene.net]
Beispielcode:
Nachteile:using IFilter; // ... public static string ExtractTextFromPdf(string path) { return DefaultParser.Extract(path); }
Verwendet unzuverlässiges COM-Interop zur Handhabung der IFilter-Schnittstelle (und die Kombination von IFilter COM und Adobe PDF IFilter ist besonders problematisch).
Adobe IFilter muss separat auf dem Zielsystem installiert werden. Es ist mühsam, wenn Sie eine indexierbare Lösung für andere veröffentlichen müssen.
iTextSharp
iTextSharp (http://sourceforge.net/projects/itextsharp/) ist eine Java-PDF-Operationsbibliothek iText (http://itextpdf.com/) für die .NET-Ausgabe. Es konzentriert sich hauptsächlich auf das Bearbeiten von PDFs und nicht auf deren Lesen, unterstützt aber sicherlich auch das Extrahieren von Text aus PDFs (obwohl es etwas übertrieben ist).
Routine:
Credit: Mitgliedsnr. 10364982using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; // ... public static string ExtractTextFromPdf(string path) { using (PdfReader reader = new PdfReader(path)) { StringBuilder text = new StringBuilder(); for (int i = 1; i <= reader.NumberOfPages; i++) { text.Append(PdfTextExtractor.GetTextFromPage(reader, i)); } return text.ToString(); } }
Nachteile:
Lizenz erforderlich (wenn Ihnen die AGPL-Lizenz nicht gefällt) )
PDFBox
PDFBox ist eine weitere Java-PDF-Klassenbibliothek. Es kann auch mit Original Java Lucene verwendet werden (siehe LucenePDFDocument).
Glücklicherweise gibt es von PDFBox eine .NET-Version, die mit IKVM.NET entwickelt wurde (besuchen Sie einfach die PDFBox-Downloadseite).
Für die Verwendung von PDFBox in .NET sind Anführungszeichen erforderlich:
IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8 . 4.dll
Und kopieren Sie die folgenden Dateien in den Bin-Ordner:
commons-logging.dll
fontbox-1.8.4.dll
IKVM .OpenJDK.Util.dll
IKVM.Runtime.dll
Die Verwendung von PDFBox zum Parsen von PDF-Dateien ist sehr einfach:
Die kompilierte Gesamtgröße beträgt fast 18 MB :using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.util; // ... private static string ExtractTextFromPdf(string path) { PDDocument doc = null; try { doc = PDDocument.load(path) PDFTextStripper stripper = new PDFTextStripper(); return stripper.getText(doc); } finally { if (doc != null) { doc.close(); } } }
IKVM.OpenJDK.Core.dll (4 MB)
IKVM.OpenJDK.SwingAWT.dll (6 MB)
pdfbox-1.8.4.dll (4 MB)
commons-logging.dll (82 kB)
fontbox-1.8.4.dll (180 kB)
IKVM.OpenJDK.Util.dll (2 MB)
IKVM.Runtime.dll (1 MB)
Die Geschwindigkeit ist in Ordnung: Das Parsen der U.S. Copyright Act PDF-Datei (5,1 MB) dauerte 13 Sekunden.
Danke bobrien100 für die Verbesserungsvorschläge.
Nachteile:
IKVM.NET-Abhängigkeit (18 MB)
Geschwindigkeit (insbesondere die Startzeit von IKVM.NET)

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Leitfaden zu Active Directory mit C#. Hier besprechen wir die Einführung und die Funktionsweise von Active Directory in C# sowie die Syntax und das Beispiel.

Leitfaden zu den Zugriffsmodifikatoren in C#. Wir haben die Einführungstypen von Zugriffsmodifikatoren in C# zusammen mit Beispielen und Ausgaben besprochen.

Leitfaden zum Zufallszahlengenerator in C#. Hier besprechen wir die Funktionsweise des Zufallszahlengenerators, das Konzept von Pseudozufallszahlen und sicheren Zahlen.

Leitfaden zur C#-Datenrasteransicht. Hier diskutieren wir die Beispiele, wie eine Datenrasteransicht aus der SQL-Datenbank oder einer Excel-Datei geladen und exportiert werden kann.

Leitfaden zu Mustern in C#. Hier besprechen wir die Einführung und die drei wichtigsten Arten von Mustern in C# zusammen mit ihren Beispielen und der Code-Implementierung.

Leitfaden zur C#-Serialisierung. Hier besprechen wir die Einführung, die Schritte des C#-Serialisierungsobjekts, die Funktionsweise bzw. das Beispiel.

Leitfaden zu Webdiensten in C#. Hier besprechen wir eine Einführung in Webdienste in C# mit Technologienutzung, Einschränkungen und Beispielen.

Leitfaden zu Primzahlen in C#. Hier besprechen wir die Einführung und Beispiele von Primzahlen in C# sowie die Codeimplementierung.
