Heim Backend-Entwicklung C#.Net-Tutorial C# implementiert die Funktion zum Konvertieren von PDF in Text

C# implementiert die Funktion zum Konvertieren von PDF in Text

Nov 24, 2016 pm 01:17 PM
c#

Update

27. Februar 2014: In diesem Artikel wurde ursprünglich nur die Verwendung von PDFBox zum Parsen von PDF-Dateien beschrieben. Es wurde nun um Routinen zur Verwendung von IFilter und iTextSharp erweitert.

Dieser Artikel und das entsprechende Visual Studio-Projekt wurden auf die neueste PDFBox-Version (1.8.4) aktualisiert. Das komplette Projekt mit allen Abhängigkeiten kann von http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ heruntergeladen werden (das Entfernen von Abhängigkeiten ist etwas knifflig).

So analysieren Sie PDF-Dateien

Die wichtigsten Methoden zum Extrahieren von Text aus PDF-Dateien in .NET sind:

Microsofts IFilter-Schnittstelle und Adobes IFilter-Implementierung; >iTextSharp;

PDFBox.

Leider ist keine dieser PDF-Parsing-Lösungen perfekt. Wir besprechen diese Methoden im Folgenden.

Adobe PDF IFilter

Um die IFilter-Schnittstelle zum Parsen von PDF-Dateien verwenden zu können, benötigen Sie:

Windows 2000 oder höher

Adobe Acrobat oder Reader 7.0.5+ (oder separater Adobe PDF IFilter [adobe.com])

IFilter COM-Wrapper-Klasse [dotlucene.net]

Beispielcode:

Nachteile:
using IFilter;
 
// ...
 
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}
Nach dem Login kopieren

Verwendet unzuverlässiges COM-Interop zur Handhabung der IFilter-Schnittstelle (und die Kombination von IFilter COM und Adobe PDF IFilter ist besonders problematisch).

Adobe IFilter muss separat auf dem Zielsystem installiert werden. Es ist mühsam, wenn Sie eine indexierbare Lösung für andere veröffentlichen müssen.

iTextSharp

iTextSharp (http://sourceforge.net/projects/itextsharp/) ist eine Java-PDF-Operationsbibliothek iText (http://itextpdf.com/) für die .NET-Ausgabe. Es konzentriert sich hauptsächlich auf das Bearbeiten von PDFs und nicht auf deren Lesen, unterstützt aber sicherlich auch das Extrahieren von Text aus PDFs (obwohl es etwas übertrieben ist).

Routine:

Credit: Mitgliedsnr. 10364982
using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
 
// ...
  
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();
 
    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }
 
    return text.ToString();
  }
}
Nach dem Login kopieren

Nachteile:

Lizenz erforderlich (wenn Ihnen die AGPL-Lizenz nicht gefällt) )

PDFBox

PDFBox ist eine weitere Java-PDF-Klassenbibliothek. Es kann auch mit Original Java Lucene verwendet werden (siehe LucenePDFDocument).

Glücklicherweise gibt es von PDFBox eine .NET-Version, die mit IKVM.NET entwickelt wurde (besuchen Sie einfach die PDFBox-Downloadseite).

Für die Verwendung von PDFBox in .NET sind Anführungszeichen erforderlich:

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8 . 4.dll

 Und kopieren Sie die folgenden Dateien in den Bin-Ordner:

commons-logging.dll

fontbox-1.8.4.dll

IKVM .OpenJDK.Util.dll

IKVM.Runtime.dll

Die Verwendung von PDFBox zum Parsen von PDF-Dateien ist sehr einfach:

Die kompilierte Gesamtgröße beträgt fast 18 MB :
using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
 
// ...
 
private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}
Nach dem Login kopieren

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons-logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

Die Geschwindigkeit ist in Ordnung: Das Parsen der U.S. Copyright Act PDF-Datei (5,1 MB) dauerte 13 Sekunden.

Danke bobrien100 für die Verbesserungsvorschläge.

Nachteile:

IKVM.NET-Abhängigkeit (18 MB)

Geschwindigkeit (insbesondere die Startzeit von IKVM.NET)

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Active Directory mit C# Active Directory mit C# Sep 03, 2024 pm 03:33 PM

Leitfaden zu Active Directory mit C#. Hier besprechen wir die Einführung und die Funktionsweise von Active Directory in C# sowie die Syntax und das Beispiel.

Zugriffsmodifikatoren in C# Zugriffsmodifikatoren in C# Sep 03, 2024 pm 03:24 PM

Leitfaden zu den Zugriffsmodifikatoren in C#. Wir haben die Einführungstypen von Zugriffsmodifikatoren in C# zusammen mit Beispielen und Ausgaben besprochen.

Zufallszahlengenerator in C# Zufallszahlengenerator in C# Sep 03, 2024 pm 03:34 PM

Leitfaden zum Zufallszahlengenerator in C#. Hier besprechen wir die Funktionsweise des Zufallszahlengenerators, das Konzept von Pseudozufallszahlen und sicheren Zahlen.

C#-Datenrasteransicht C#-Datenrasteransicht Sep 03, 2024 pm 03:32 PM

Leitfaden zur C#-Datenrasteransicht. Hier diskutieren wir die Beispiele, wie eine Datenrasteransicht aus der SQL-Datenbank oder einer Excel-Datei geladen und exportiert werden kann.

Muster in C# Muster in C# Sep 03, 2024 pm 03:33 PM

Leitfaden zu Mustern in C#. Hier besprechen wir die Einführung und die drei wichtigsten Arten von Mustern in C# zusammen mit ihren Beispielen und der Code-Implementierung.

C#-Serialisierung C#-Serialisierung Sep 03, 2024 pm 03:30 PM

Leitfaden zur C#-Serialisierung. Hier besprechen wir die Einführung, die Schritte des C#-Serialisierungsobjekts, die Funktionsweise bzw. das Beispiel.

Webdienste in C# Webdienste in C# Sep 03, 2024 pm 03:32 PM

Leitfaden zu Webdiensten in C#. Hier besprechen wir eine Einführung in Webdienste in C# mit Technologienutzung, Einschränkungen und Beispielen.

Primzahlen in C# Primzahlen in C# Sep 03, 2024 pm 03:35 PM

Leitfaden zu Primzahlen in C#. Hier besprechen wir die Einführung und Beispiele von Primzahlen in C# sowie die Codeimplementierung.

See all articles