Update
27. Februar 2014: In diesem Artikel wurde ursprünglich nur die Verwendung von PDFBox zum Parsen von PDF-Dateien beschrieben. Es wurde nun um Routinen zur Verwendung von IFilter und iTextSharp erweitert.
Dieser Artikel und das entsprechende Visual Studio-Projekt wurden auf die neueste PDFBox-Version (1.8.4) aktualisiert. Das komplette Projekt mit allen Abhängigkeiten kann von http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ heruntergeladen werden (das Entfernen von Abhängigkeiten ist etwas knifflig).
So analysieren Sie PDF-Dateien
Die wichtigsten Methoden zum Extrahieren von Text aus PDF-Dateien in .NET sind:
Microsofts IFilter-Schnittstelle und Adobes IFilter-Implementierung; >iTextSharp;
PDFBox.
Leider ist keine dieser PDF-Parsing-Lösungen perfekt. Wir besprechen diese Methoden im Folgenden.
Adobe PDF IFilter
Um die IFilter-Schnittstelle zum Parsen von PDF-Dateien verwenden zu können, benötigen Sie:
Windows 2000 oder höher
Adobe Acrobat oder Reader 7.0.5+ (oder separater Adobe PDF IFilter [adobe.com])
IFilter COM-Wrapper-Klasse [dotlucene.net]
Beispielcode:
Nachteile:using IFilter; // ... public static string ExtractTextFromPdf(string path) { return DefaultParser.Extract(path); }
Verwendet unzuverlässiges COM-Interop zur Handhabung der IFilter-Schnittstelle (und die Kombination von IFilter COM und Adobe PDF IFilter ist besonders problematisch).
Adobe IFilter muss separat auf dem Zielsystem installiert werden. Es ist mühsam, wenn Sie eine indexierbare Lösung für andere veröffentlichen müssen.
iTextSharp
iTextSharp (http://sourceforge.net/projects/itextsharp/) ist eine Java-PDF-Operationsbibliothek iText (http://itextpdf.com/) für die .NET-Ausgabe. Es konzentriert sich hauptsächlich auf das Bearbeiten von PDFs und nicht auf deren Lesen, unterstützt aber sicherlich auch das Extrahieren von Text aus PDFs (obwohl es etwas übertrieben ist).
Routine:
Credit: Mitgliedsnr. 10364982using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; // ... public static string ExtractTextFromPdf(string path) { using (PdfReader reader = new PdfReader(path)) { StringBuilder text = new StringBuilder(); for (int i = 1; i <= reader.NumberOfPages; i++) { text.Append(PdfTextExtractor.GetTextFromPage(reader, i)); } return text.ToString(); } }
Nachteile:
Lizenz erforderlich (wenn Ihnen die AGPL-Lizenz nicht gefällt) )
PDFBox
PDFBox ist eine weitere Java-PDF-Klassenbibliothek. Es kann auch mit Original Java Lucene verwendet werden (siehe LucenePDFDocument).
Glücklicherweise gibt es von PDFBox eine .NET-Version, die mit IKVM.NET entwickelt wurde (besuchen Sie einfach die PDFBox-Downloadseite).
Für die Verwendung von PDFBox in .NET sind Anführungszeichen erforderlich:
IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8 . 4.dll
Und kopieren Sie die folgenden Dateien in den Bin-Ordner:
commons-logging.dll
fontbox-1.8.4.dll
IKVM .OpenJDK.Util.dll
IKVM.Runtime.dll
Die Verwendung von PDFBox zum Parsen von PDF-Dateien ist sehr einfach:
Die kompilierte Gesamtgröße beträgt fast 18 MB :using org.apache.pdfbox.pdmodel; using org.apache.pdfbox.util; // ... private static string ExtractTextFromPdf(string path) { PDDocument doc = null; try { doc = PDDocument.load(path) PDFTextStripper stripper = new PDFTextStripper(); return stripper.getText(doc); } finally { if (doc != null) { doc.close(); } } }
IKVM.OpenJDK.Core.dll (4 MB)
IKVM.OpenJDK.SwingAWT.dll (6 MB)
pdfbox-1.8.4.dll (4 MB)
commons-logging.dll (82 kB)
fontbox-1.8.4.dll (180 kB)
IKVM.OpenJDK.Util.dll (2 MB)
IKVM.Runtime.dll (1 MB)
Die Geschwindigkeit ist in Ordnung: Das Parsen der U.S. Copyright Act PDF-Datei (5,1 MB) dauerte 13 Sekunden.
Danke bobrien100 für die Verbesserungsvorschläge.
Nachteile:
IKVM.NET-Abhängigkeit (18 MB)
Geschwindigkeit (insbesondere die Startzeit von IKVM.NET)