ホームページ バックエンド開発 C#.Net チュートリアル C#はPDFをテキストに変換する機能を実装します

C#はPDFをテキストに変換する機能を実装します

Nov 24, 2016 pm 01:17 PM
c#

更新

2014 年 2 月 27 日: この記事は当初、PDFBox を使用して PDF ファイルを解析することについてのみ説明していました。これは、IFilter と iTextSharp を使用するためのルーチンを含むように拡張されました。

この記事と対応する Visual Studio プロジェクトは、PDFBox の最新バージョン (1.8.4) に更新されました。すべての依存関係を含む完全なプロジェクトは、http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ からダウンロードできます (依存関係の削除は少し注意が必要です)。

PDF ファイルを解析する方法

.NET で PDF ファイルからテキストを抽出する主な方法は次のとおりです。

Microsoft の IFilter インターフェイスと Adob​​e の IFilter 実装。

残念ながら、これらの PDF 解析ソリューションはどれも完璧ではありません。これらの方法については以下で説明します。

Adob​​e PDF IFilter

IFilter インターフェイスを使用して PDF ファイルを解析するには、次のものが必要です:

Windows 2000 以降

Adobe Acrobat または Reader 7.0.5+ (またはスタンドアロン Adob​​e PDF IFilter [adobe.com])

IFilter COM カプセル化クラス [dotlucene.net]

サンプル コード:

using IFilter;
 
// ...
 
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}
ログイン後にコピー

短所:

IFilter インターフェイスを処理するために信頼性の低い COM 相互運用機能を使用します (IFilter COM と Adob​​e PDF IFilter を組み合わせるのは特に面倒です)。

ターゲット システムに Adob​​e IFilter を個別にインストールする必要があります。インデックス可能なソリューションを他の人に公開する必要がある場合、それは面倒です。

iTextSharp

iTextSharp (http://sourceforge.net/projects/itextsharp/) は、Java PDF 操作ライブラリ iText (http://itextpdf.com/) .NET 出力です。主に PDF を読み取ることよりも編集することに重点を置いていますが、確かに PDF からのテキストの抽出もサポートしています (少しやりすぎですが)。

ルーチン:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
 
// ...
  
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();
 
    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }
 
    return text.ToString();
  }
}
ログイン後にコピー

クレジット: 会員番号 10364982

短所:

ライセンスが必要(AGPLライセンスが気に入らない場合)

PDFBox

PDFBoxは、別のJava PDFクラスライブラリです。オリジナルの Java Lucene と一緒に使用することもできます (LucenePDFDocument を参照)。

幸いなことに、PDFBox には IKVM.NET を使用して開発された .NET バージョンがあります (PDFBox ダウンロード ページにアクセスしてください)。

.NET で PDFBox を使用するには、引用符で囲む必要があります:

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8.4.dll

そして、次のファイルを bin フォルダーにコピーします。

commons-logging.dll

fontbox-1.8.4.dll

IKVM.OpenJDK.Util.dll

IKVM.Runtime.dll

PDFBoxを使用してPDFを解析するのは非常に簡単です:

using org.apache.pdfbox.pdmodel;
using org.apache.pdfbox.util;
 
// ...
 
private static string ExtractTextFromPdf(string path)
{
  PDDocument doc = null;
  try {
    doc = PDDocument.load(path)
    PDFTextStripper stripper = new PDFTextStripper();
    return stripper.getText(doc);
  }
  finally {
    if (doc != null) {
      doc.close();
    }
  }
}
ログイン後にコピー
コンパイルされたサイズ合計でほぼ 18MB になります:

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons- logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

速度はOK: 米国著作権法 PDF (5.1 MB) ファイルの解析には 13 秒かかりました。

bobrien100さん、改善提案ありがとうございます。

デメリット:

IKVM.NET依存(18MB)

速度(特にIKVM.NETの起動時間)

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

C# を使用した Active Directory C# を使用した Active Directory Sep 03, 2024 pm 03:33 PM

C# を使用した Active Directory のガイド。ここでは、Active Directory の概要と、C# での動作方法について、構文と例とともに説明します。

C# の乱数ジェネレーター C# の乱数ジェネレーター Sep 03, 2024 pm 03:34 PM

C# の乱数ジェネレーターのガイド。ここでは、乱数ジェネレーターの仕組み、擬似乱数の概念、安全な数値について説明します。

C# のアクセス修飾子 C# のアクセス修飾子 Sep 03, 2024 pm 03:24 PM

C# のアクセス修飾子のガイド。 C# のアクセス修飾子の種類について、例と出力とともに説明しました。

C# データ グリッド ビュー C# データ グリッド ビュー Sep 03, 2024 pm 03:32 PM

C# データ グリッド ビューのガイド。ここでは、SQL データベースまたは Excel ファイルからデータ グリッド ビューをロードおよびエクスポートする方法の例について説明します。

C# シリアル化 C# シリアル化 Sep 03, 2024 pm 03:30 PM

C# シリアル化のガイド。ここでは、C# シリアル化オブジェクトの導入、手順、作業、例についてそれぞれ説明します。

C# のパターン C# のパターン Sep 03, 2024 pm 03:33 PM

C# のパターンのガイド。ここでは、C# のパターンの概要と上位 3 種類について、その例とコード実装とともに説明します。

C# の素数 C# の素数 Sep 03, 2024 pm 03:35 PM

C# の素数ガイド。ここでは、C# における素数の導入と例を、コードの実装とともに説明します。

C# の階乗 C# の階乗 Sep 03, 2024 pm 03:34 PM

C# の Factorial のガイド。ここでは、C# での階乗の概要について、さまざまな例とコード実装とともに説明します。

See all articles