> 백엔드 개발 > C++ > iTextSharp의 PdfReader는 어떻게 PDF 파일에서 텍스트와 이미지를 추출할 수 있습니까?

iTextSharp의 PdfReader는 어떻게 PDF 파일에서 텍스트와 이미지를 추출할 수 있습니까?

Susan Sarandon
풀어 주다: 2025-01-06 07:43:45
원래의
218명이 탐색했습니다.

How Can iTextSharp's PdfReader Extract Text and Images from PDF Files?

iTextSharp의 PdfReader를 사용하여 PDF 콘텐츠를 읽는 기술

PDF 문서 작업 시 콘텐츠 추출은 데이터 분석, 텍스트 검색 및 추가 처리. 유명한 C# 및 VB.NET 라이브러리인 iTextSharp는 PDF 콘텐츠를 읽고 구문 분석하기 위한 강력한 도구를 제공합니다.

iTextSharp의 PdfReader 클래스를 사용하면 개발자가 PDF 파일 콘텐츠에 효율적으로 액세스할 수 있습니다. 일반 텍스트와 문서에 포함된 이미지를 모두 추출하기 위한 다양한 옵션을 제공합니다.

일반 텍스트 추출

PDF에서 일반 텍스트를 추출하려면 SimpleTextExtractionStrategy를 활용할 수 있습니다. class:

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
로그인 후 복사

여기서 currentText에는 지정된 페이지에서 추출된 텍스트 콘텐츠가 포함됩니다. 텍스트에는 유니코드가 아닌 문자가 포함될 수 있으며 적절한 처리를 위해 UTF-8 형식으로 변환할 수 있습니다.

이미지 추출

PDF에 포함된 이미지가 포함된 경우 , PdfImageExtender 클래스를 사용하여 추출할 수 있습니다.

PdfImageExtender extender = new PdfImageExtender();
List<Image> images = extender.GetImagesFromPage(pdfReader, page);
로그인 후 복사

이 코드는 이미지를 나타내는 Image 개체 목록을 검색합니다. 지정된 페이지. 그런 다음 각 이미지의 데이터에 액세스하여 적절한 형식으로 저장할 수 있습니다.

위 내용은 iTextSharp의 PdfReader는 어떻게 PDF 파일에서 텍스트와 이미지를 추출할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿