C# 實作將 PDF 轉文本的功能
更新
2014年2月27日: 這篇文章最初只描述使用 PDFBox 解析PDF文件。現在它已經擴展到包括使用 IFilter 和 iTextSharp 的例程了。
這篇文章和對應的Visual Studio專案已經更新到目前最新的 PDFBox 版本(1.8.4)。可以從 http://www.squarepdf.net/how-to-convert-pdf-to-text-in-net-sample-project/ 下載包含所有依賴內容的完整專案(要消除依賴關係有點棘手)。
如何解析 PDF 文件
在.NET中從PDF文件中提取文本的幾種主要方法有:
Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 實作;
Microsoft 的 IFilter 介面 和 Adobe 的 IFilter 實作;
iSharp;
不幸的是這些 PDF 解析方案都不完美。我們將在下面討論這些方法。
Adobe PDF IFilter
為了使用IFilter 介面來解析 PDF 文件,你需要:
Windows 2000 或後續版本
Adobe Acrobat 或Reader 7.0.5+ (S7.0.5+).
IFilter COM 封裝類別 [dotlucene.net] 範例程式碼:using IFilter; // ... public static string ExtractTextFromPdf(string path) { return DefaultParser.Extract(path); }
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; // ... public static string ExtractTextFromPdf(string path) { using (PdfReader reader = new PdfReader(path)) { StringBuilder text = new StringBuilder(); for (int i = 1; i <= reader.NumberOfPages; i++) { text.Append(PdfTextExtractor.GetTextFromPage(reader, i)); } return text.ToString(); } }
IKVM.Runtime.dlldsBox
起來差不多有18MB:IKVM.OpenJDK.Core.dll (4 MB)IKVM.OpenJDK.SwingAWT.dll (6 MB)-pdfbox-1.8.4.dll (4 MB)dll (82 kB)
fontbox-1.8.4.dll (180 kB)
IKVM.OpenJDK.Util.dll (2 MB)
IKVM.Runtime.dll (1 MB)
〜IKVM.Runtime.dll (1 MB)
。 Copyright Act PDF (5.1 MB)檔案花了13秒。 感謝bobrien100提供的改進建議。 缺點:IKVM.NET依賴 (18 MB)速度(尤其是IKVM.NET的啟動時間)
熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用 C# 的 Active Directory 指南。在這裡,我們討論 Active Directory 在 C# 中的介紹和工作原理以及語法和範例。

多線程和異步的區別在於,多線程同時執行多個線程,而異步在不阻塞當前線程的情況下執行操作。多線程用於計算密集型任務,而異步用於用戶交互操作。多線程的優勢是提高計算性能,異步的優勢是不阻塞 UI 線程。選擇多線程還是異步取決於任務性質:計算密集型任務使用多線程,與外部資源交互且需要保持 UI 響應的任務使用異步。

可以採用多種方法修改 XML 格式:使用文本編輯器(如 Notepad )進行手工編輯;使用在線或桌面 XML 格式化工具(如 XMLbeautifier)進行自動格式化;使用 XML 轉換工具(如 XSLT)定義轉換規則;或者使用編程語言(如 Python)進行解析和操作。修改時需謹慎,並備份原始文件。
