C# または VB.NET で iTextSharp を使用して PDF コンテンツを効率的に抽出する方法
Jan 06, 2025 am 07:46 AMiTextSharp を使用した PDF コンテンツの抽出
質問:
iTextSharp を使用して PDF ドキュメントのコンテンツを効果的に取得する方法VB.NET またはC#?
答え:
iTextSharp は、PdfReader クラスを通じて PDF コンテンツを読み取るための信頼できるメカニズムを提供します。 PDF ドキュメントからテキストと画像の両方を抽出する包括的な C# ソリューションを次に示します。
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.IO; using System.Text; namespace PdfContentReader { public static class Program { public static string ReadPdfFile(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); text.Append(currentText); } pdfReader.Close(); } return text.ToString(); } public static void Main(string[] args) { string fileName = @"path\to\file.pdf"; string extractedText = ReadPdfFile(fileName); Console.WriteLine(extractedText); } } }
ログイン後にコピー
この実装では:
- ReadPdfFile メソッドは、ファイル名を引数として受け取り、 PDF ドキュメントの各ページからテキスト コンテンツを抽出します。
- SimpleTextExtractionStrategy を使用して PDF からプレーン テキストを抽出します。 document.
- 抽出されたテキストを UTF-8 エンコードに変換することで、潜在的なエンコードの問題に対処します。
このソリューションは、PDF ドキュメントからテキスト コンテンツを効率的に抽出し、プレーン テキストとテキストの両方を処理します。画像を効果的に埋め込みます。
以上がC# または VB.NET で iTextSharp を使用して PDF コンテンツを効率的に抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

人気の記事
スプリットフィクションを打ち負かすのにどれくらい時間がかかりますか?
3週間前
By DDD
レポ:チームメイトを復活させる方法
3週間前
By 尊渡假赌尊渡假赌尊渡假赌
ハローキティアイランドアドベンチャー:巨大な種を手に入れる方法
3週間前
By 尊渡假赌尊渡假赌尊渡假赌
2つのポイント博物館:すべての展示とそれらを見つける場所
3週間前
By 尊渡假赌尊渡假赌尊渡假赌

人気の記事
スプリットフィクションを打ち負かすのにどれくらい時間がかかりますか?
3週間前
By DDD
レポ:チームメイトを復活させる方法
3週間前
By 尊渡假赌尊渡假赌尊渡假赌
ハローキティアイランドアドベンチャー:巨大な種を手に入れる方法
3週間前
By 尊渡假赌尊渡假赌尊渡假赌
2つのポイント博物館:すべての展示とそれらを見つける場所
3週間前
By 尊渡假赌尊渡假赌尊渡假赌

ホットな記事タグ

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック
Gmailメールのログイン入り口はどこですか?
7126
9


Java チュートリアル
1534
14


Laravel チュートリアル
1256
25


PHP チュートリアル
1205
29


CakePHP チュートリアル
1153
46



C言語関数によって返される値の種類は何ですか?返品値を決定するものは何ですか?

STL(ソート、検索、変換など)のアルゴリズムを効率的に使用するにはどうすればよいですか?
