iTextSharp の PdfReader を使用して PDF コンテンツを読み取るためのテクニック
PDF ドキュメントを操作する場合、コンテンツの抽出はデータ分析、テキスト検索、およびさらなる処理。有名な C# および VB.NET ライブラリである iTextSharp は、PDF コンテンツの読み取りと解析のための強力なツールを提供します。
iTextSharp の PdfReader クラスを使用すると、開発者は PDF ファイルのコンテンツに効率的にアクセスできます。プレーン テキストとドキュメント内に埋め込まれた画像の両方を抽出するためのさまざまなオプションが提供されます。
プレーン テキストの抽出
PDF からプレーン テキストを抽出するには、SimpleTextExtractionStrategy を利用できます。 class:
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
ここで、currentText には、指定されたページから抽出されたテキスト コンテンツが含まれます。テキストには非 Unicode 文字が含まれている可能性があることに注意してください。適切に処理するには、UTF-8 形式に変換できます。
画像抽出
PDF に埋め込み画像が含まれている場合、PdfImageExtender クラスを使用してそれらを抽出できます。
PdfImageExtender extender = new PdfImageExtender(); List<Image> images = extender.GetImagesFromPage(pdfReader, page);
このコードは、画像を表す Image オブジェクトのリストを取得します。指定されたページにあります。その後、各画像のデータにアクセスし、適切な形式で保存できます。
以上がiTextSharp の PdfReader はどのようにして PDF ファイルからテキストと画像を抽出できますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。