.NET에서 iTextSharp를 사용하여 PDF 콘텐츠 추출
.NET 애플리케이션에서 iTextSharp는 PDF 문서 처리를 위한 강력한 기능을 제공합니다. 주요 기능 중 하나는 텍스트와 이미지를 모두 포함하여 PDF에서 콘텐츠를 추출하는 기능입니다.
PDF에서 일반 텍스트 읽기
PDF에서 일반 텍스트를 읽으려면 iTextSharp를 사용하면 다음 코드를 활용할 수 있습니다.
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System.IO; public string ReadPdfText(string fileName) { StringBuilder text = new StringBuilder(); if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy(); string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy); text.Append(currentText); } pdfReader.Close(); } return text.ToString(); }
이 예에서 ReadPdfText 메서드는 내용을 읽습니다. PDF 파일의 텍스트를 StringBuilder 개체에 축적합니다. SimpleTextExtractionStrategy는 PDF의 각 페이지에서 텍스트를 추출하는 데 사용됩니다.
PDF에서 이미지 처리
위의 코드는 텍스트 추출에 중점을 두지만 iTextSharp를 사용하면 다음 작업도 수행할 수 있습니다. PDF에서 이미지를 추출합니다. 다음 접근 방식을 사용할 수 있습니다.
using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser; using System; using System.Drawing; using System.IO; public void ReadPdfImages(string fileName) { if (File.Exists(fileName)) { PdfReader pdfReader = new PdfReader(fileName); for (int page = 1; page <= pdfReader.NumberOfPages; page++) { PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader); string content = parser.ProcessContent(page, new ImageRenderListener()); } } }
이 코드에서는 PdfReaderContentParser를 사용하여 각 페이지의 콘텐츠를 구문 분석합니다. ImageRenderListener는 이미지 렌더링을 처리하는 콜백 메서드를 제공합니다. 각 이미지는 추가로 처리하거나 저장할 수 있는 비트맵 개체로 렌더링됩니다.
위 내용은 .NET에서 iTextSharp를 사용하여 PDF에서 텍스트 및 이미지를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!