ホームページ > バックエンド開発 > C++ > iTextSharp の PdfReader はどのようにして PDF ファイルからテキストと画像を抽出できますか?

iTextSharp の PdfReader はどのようにして PDF ファイルからテキストと画像を抽出できますか?

Susan Sarandon
リリース: 2025-01-06 07:43:45
オリジナル
218 人が閲覧しました

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

iTextSharp の PdfReader を使用して PDF コンテンツを読み取るためのテクニック

PDF ドキュメントを操作する場合、コンテンツの抽出はデータ分析、テキスト検索、およびさらなる処理。有名な C# および VB.NET ライブラリである iTextSharp は、PDF コンテンツの読み取りと解析のための強力なツールを提供します。

iTextSharp の PdfReader クラスを使用すると、開発者は PDF ファイルのコンテンツに効率的にアクセスできます。プレーン テキストとドキュメント内に埋め込まれた画像の両方を抽出するためのさまざまなオプションが提供されます。

プレーン テキストの抽出

PDF からプレーン テキストを抽出するには、SimpleTextExtractionStrategy を利用できます。 class:

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
ログイン後にコピー

ここで、currentText には、指定されたページから抽出されたテキスト コンテンツが含まれます。テキストには非 Unicode 文字が含まれている可能性があることに注意してください。適切に処理するには、UTF-8 形式に変換できます。

画像抽出

PDF に埋め込み画像が含まれている場合、PdfImageExtender クラスを使用してそれらを抽出できます。

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);
ログイン後にコピー

このコードは、画像を表す Image オブジェクトのリストを取得します。指定されたページにあります。その後、各画像のデータにアクセスし、適切な形式で保存できます。

以上がiTextSharp の PdfReader はどのようにして PDF ファイルからテキストと画像を抽出できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート