ホームページ > バックエンド開発 > C++ > VB.NET または C# で iTextSharp を使用して PDF ファイルからテキストを効率的に抽出するにはどうすればよいですか?

VB.NET または C# で iTextSharp を使用して PDF ファイルからテキストを効率的に抽出するにはどうすればよいですか?

DDD
リリース: 2025-01-06 08:03:43
オリジナル
766 人が閲覧しました

How Can I Efficiently Extract Text from PDF Files Using iTextSharp in VB.NET or C#?

VB.NET または C の iTextSharp を使用した PDF コンテンツの抽出

PDF ドキュメントのコンテンツを読み取ることは、堅牢で多用途のアプリケーションを構築する場合の一般的なタスクです。強力なオープンソース ライブラリである iTextSharp は、.NET アプリケーションで PDF ドキュメントを管理するための包括的なソリューションを提供します。

PDF ファイルからテキストを抽出する場合、iTextSharp はテキスト用の重要なツールである PdfReader クラスを提供します。抽出目的。このクラスを使用すると、PDF ドキュメントの個々のページにアクセスでき、SimpleTextExtractionStrategy 戦略を利用して、それらのページからプレーン テキスト コンテンツを取得できます。

画像ベースの PDF からテキストを抽出するには、iTextSharp Tesseract のような OCR エンジンを活用します。これらのエンジンは画像からテキストを認識して抽出し、テキストの画像を含む PDF からコンテンツをキャプチャできるようにします。

VB.NET または C# で PdfReader を使用して PDF コンテンツを読み取る方法を示す例を次に示します:

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.IO;
using System.Text;

public static class PdfReaderExample
{
    public static string ReadPdfFile(string filePath)
    {
        var sb = new StringBuilder();
        
        if (File.Exists(filePath))
        {
            var reader = new PdfReader(filePath);
            
            for (var page = 1; page <= reader.NumberOfPages; page++)
            {
                var strategy = new SimpleTextExtractionStrategy();
                var text = PdfTextExtractor.GetTextFromPage(reader, page, strategy);
                
                text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(text)));
                sb.Append(text);
            }
            
            reader.Close();
        }
        
        return sb.ToString();
    }
}
ログイン後にコピー

この例では:

  • PdfReader が初期化され、PDF へのアクセスが許可されます。ドキュメントのコンテンツ。
  • PDF の各ページは、PdfTextExtractor と SimpleTextExtractionStrategy を使用して処理されます。
  • 抽出されたテキストは、正確なテキスト表現のために UTF-8 エンコーディングに変換されます。
  • 最終的に抽出されたテキストは文字列変数に格納され、結果として返されます。

By iTextSharp の機能を利用すると、PDF ファイルのコンテンツを簡単に読み取ることができ、アプリケーションに PDF ドキュメントを処理および分析する機能を与えます。

以上がVB.NET または C# で iTextSharp を使用して PDF ファイルからテキストを効率的に抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート