PDF ドキュメントのコンテンツを読み取ることは、堅牢で多用途のアプリケーションを構築する場合の一般的なタスクです。強力なオープンソース ライブラリである iTextSharp は、.NET アプリケーションで PDF ドキュメントを管理するための包括的なソリューションを提供します。
PDF ファイルからテキストを抽出する場合、iTextSharp はテキスト用の重要なツールである PdfReader クラスを提供します。抽出目的。このクラスを使用すると、PDF ドキュメントの個々のページにアクセスでき、SimpleTextExtractionStrategy 戦略を利用して、それらのページからプレーン テキスト コンテンツを取得できます。
画像ベースの PDF からテキストを抽出するには、iTextSharp Tesseract のような OCR エンジンを活用します。これらのエンジンは画像からテキストを認識して抽出し、テキストの画像を含む PDF からコンテンツをキャプチャできるようにします。
VB.NET または C# で PdfReader を使用して PDF コンテンツを読み取る方法を示す例を次に示します:
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.IO; using System.Text; public static class PdfReaderExample { public static string ReadPdfFile(string filePath) { var sb = new StringBuilder(); if (File.Exists(filePath)) { var reader = new PdfReader(filePath); for (var page = 1; page <= reader.NumberOfPages; page++) { var strategy = new SimpleTextExtractionStrategy(); var text = PdfTextExtractor.GetTextFromPage(reader, page, strategy); text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text))); sb.Append(text); } reader.Close(); } return sb.ToString(); } }
この例では:
By iTextSharp の機能を利用すると、PDF ファイルのコンテンツを簡単に読み取ることができ、アプリケーションに PDF ドキュメントを処理および分析する機能を与えます。
以上がVB.NET または C# で iTextSharp を使用して PDF ファイルからテキストを効率的に抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。