首頁 後端開發 C#.Net教程 C# 實作將 PDF 轉文本的功能

C# 實作將 PDF 轉文本的功能

Nov 24, 2016 pm 01:17 PM
c#

 更新

  2014年2月27日: 這篇文章最初只描述使用 PDFBox 解析PDF文件。現在它已經擴展到包括使用 IFilter 和 iTextSharp 的例程了。

  這篇文章和對應的Visual Studio專案已經更新到目前最新的 PDFBox 版本(1.8.4)。可以從 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下載包含所有依賴內容的完整專案(要消除依賴關係有點棘手)。

 如何解析 PDF 文件

  在.NET中從PDF文件中提取文本的幾種主要方法有:

Microsoft 的 IFilter 接口 和 Adob​​​​e 的 IFilter 實作;

Microsoft 的 IFilter 介面 和 Adob​​​​e 的 IFilter 實作;

iSharp;

  不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。

 Adobe PDF IFilter

  為了使用IFilter 介面來解析 PDF 文件,你需要:

Windows 2000 或後續版本

Adobe Acrobat 或Reader 7.0.5+ (S7.0.5+).

IFilter COM 封裝類別 [dotlucene.net]

  範例程式碼:

using IFilter;
 
// ...
 
public static string ExtractTextFromPdf(string path) {
  return DefaultParser.Extract(path); 
}
登入後複製

 缺點:

使用了不可靠的COM 互通性連接來處理IFilter 介面(並且組合IFilter 、Adobe」

需要在目標系統上單獨安裝 Adob​​​​e IFilter。如果你需要對其它人發布可索引的解決方案,會很痛苦。

 iTextSharp

  iTextSharp(http://sourceforge.net/projects/itextsharp/) 是 Java 的PDF 操作庫 iText(http://itextpdf.com/) 的.NET輸出。它主要著眼於編輯PDF而不是閱讀,但它當然也支援從PDF中提取文字(儘管有點大材小用)。

  例程:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
 
// ...
  
public static string ExtractTextFromPdf(string path)
{
  using (PdfReader reader = new PdfReader(path))
  {
    StringBuilder text = new StringBuilder();
 
    for (int i = 1; i <= reader.NumberOfPages; i++)
    {
        text.Append(PdfTextExtractor.GetTextFromPage(reader, i));
    }
 
    return text.ToString();
  }
}
登入後複製

 信用證: 成員號 10364982

  缺點:

需要許可證(如果你不喜歡的庫嗎PLPL 。它同時也可以與原來的Java Lucene一起使用(請參閱LucenePDFDocument)。

  幸運的是,PDFBox有一個使用IKVM.NET開發的.NET版本 (只需訪問PDFBox下載頁)。

  在.NET中使用PDFBox需要引用:

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dllll

pdf-1.8.4. :

commons-logging.dll

fontbox-1.8.4.dll

IKVM.OpenJDK.Util.dll

IKVM.Runtime.dllllo

IKVM.Runtime.dlldsBox

起來差不多有18MB:

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

-pdfbox-1.8.4.dll (4 MB)

dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

IKVM.Runtime.dll (1 MB)

。 Copyright Act PDF (5.1 MB)檔案花了13秒。

  感謝bobrien100提供的改進建議。

  缺點:

IKVM.NET依賴 (18 MB)

速度(尤其是IKVM.NET的啟動時間)

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1321
25
PHP教程
1269
29
C# 教程
1249
24
使用 C# 的活動目錄 使用 C# 的活動目錄 Sep 03, 2024 pm 03:33 PM

使用 C# 的 Active Directory 指南。在這裡,我們討論 Active Directory 在 C# 中的介紹和工作原理以及語法和範例。

C# 中的隨機數產生器 C# 中的隨機數產生器 Sep 03, 2024 pm 03:34 PM

C# 隨機數產生器指南。在這裡,我們討論隨機數產生器的工作原理、偽隨機數和安全數的概念。

C# 資料網格視圖 C# 資料網格視圖 Sep 03, 2024 pm 03:32 PM

C# 資料網格視圖指南。在這裡,我們討論如何從 SQL 資料庫或 Excel 檔案載入和匯出資料網格視圖的範例。

C# 中的階乘 C# 中的階乘 Sep 03, 2024 pm 03:34 PM

C# 階乘指南。這裡我們討論 C# 中階乘的介紹以及不同的範例和程式碼實作。

c#多線程和異步的區別 c#多線程和異步的區別 Apr 03, 2025 pm 02:57 PM

多線程和異步的區別在於,多線程同時執行多個線程,而異步在不阻塞當前線程的情況下執行操作。多線程用於計算密集型任務,而異步用於用戶交互操作。多線程的優勢是提高計算性能,異步的優勢是不阻塞 UI 線程。選擇多線程還是異步取決於任務性質:計算密集型任務使用多線程,與外部資源交互且需要保持 UI 響應的任務使用異步。

C# 中的模式 C# 中的模式 Sep 03, 2024 pm 03:33 PM

C# 模式指南。在這裡,我們討論 C# 中模式的介紹和前 3 種類型,以及其範例和程式碼實作。

C# 中的質數 C# 中的質數 Sep 03, 2024 pm 03:35 PM

C# 質數指南。這裡我們討論c#中素數的介紹和範例以及程式碼實作。

xml怎麼改格式 xml怎麼改格式 Apr 03, 2025 am 08:42 AM

可以採用多種方法修改 XML 格式:使用文本編輯器(如 Notepad )進行手工編輯;使用在線或桌面 XML 格式化工具(如 XMLbeautifier)進行自動格式化;使用 XML 轉換工具(如 XSLT)定義轉換規則;或者使用編程語言(如 Python)進行解析和操作。修改時需謹慎,並備份原始文件。

See all articles