VB.NET または C# で PDF コンテンツを読み取るために Itextsharp の PdfReader クラスを利用する方法
このプログラミングの難題では、 iTextSharp ライブラリとその多用途な PdfReader クラスを使用して PDF ドキュメントのコンテンツを作成します。 PDF にプレーン テキストが含まれているかテキスト画像が含まれているかに関係なく、このクラスを使用すると、そのコンテンツに効率的にアクセスできます。
まず、抽出されたテキストを蓄積する StringBuilder オブジェクトを作成します。 PDF ファイルが存在し、指定されたファイル パス経由でアクセスできると仮定して、ドキュメントと対話するために PdfReader オブジェクトをインスタンス化します。
次に、PDF ドキュメントの各ページを反復するループを開始します。ページごとに、ITextExtractionStrategy、具体的には SimpleTextExtractionStrategy を使用して、ページ コンテンツを分析します。この戦略は、現在のページからテキストを抽出し、それを一時変数に保存します。
適切な文字エンコーディングを確保するために、抽出されたテキストを、抽出中に使用されたエンコーディングから UTF-8 に変換します。この手順により、元のエンコーディングに関係なく、すべての文字が正確に表現されることが保証されます。最後に、抽出したテキストを StringBuilder に追加します。
ループが完了したら、PdfReader を閉じて、取得したリソースを解放します。 StringBuilder に保存された累積テキストは、必要に応じてアクセスして利用できます。
以上がVB.NET または C# で iTextSharp の PdfReader を使用して PDF からテキストを抽出するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。