> 백엔드 개발 > C++ > .NET에서 iTextSharp를 사용하여 PDF에서 텍스트 및 이미지를 추출하는 방법은 무엇입니까?

.NET에서 iTextSharp를 사용하여 PDF에서 텍스트 및 이미지를 추출하는 방법은 무엇입니까?

DDD
풀어 주다: 2025-01-06 07:51:41
원래의
899명이 탐색했습니다.

How to Extract Text and Images from PDFs using iTextSharp in .NET?

.NET에서 iTextSharp를 사용하여 PDF 콘텐츠 추출

.NET 애플리케이션에서 iTextSharp는 PDF 문서 처리를 위한 강력한 기능을 제공합니다. 주요 기능 중 하나는 텍스트와 이미지를 모두 포함하여 PDF에서 콘텐츠를 추출하는 기능입니다.

PDF에서 일반 텍스트 읽기

PDF에서 일반 텍스트를 읽으려면 iTextSharp를 사용하면 다음 코드를 활용할 수 있습니다.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System.IO;

public string ReadPdfText(string fileName)
{
    StringBuilder text = new StringBuilder();

    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
            text.Append(currentText);
        }
        pdfReader.Close();
    }
    return text.ToString();
}
로그인 후 복사

이 예에서 ReadPdfText 메서드는 내용을 읽습니다. PDF 파일의 텍스트를 StringBuilder 개체에 축적합니다. SimpleTextExtractionStrategy는 PDF의 각 페이지에서 텍스트를 추출하는 데 사용됩니다.

PDF에서 이미지 처리

위의 코드는 텍스트 추출에 중점을 두지만 iTextSharp를 사용하면 다음 작업도 수행할 수 있습니다. PDF에서 이미지를 추출합니다. 다음 접근 방식을 사용할 수 있습니다.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;
using System;
using System.Drawing;
using System.IO;

public void ReadPdfImages(string fileName)
{
    if (File.Exists(fileName))
    {
        PdfReader pdfReader = new PdfReader(fileName);

        for (int page = 1; page <= pdfReader.NumberOfPages; page++)
        {
            PdfReaderContentParser parser = new PdfReaderContentParser(pdfReader);
            string content = parser.ProcessContent(page, new ImageRenderListener());
        }
    }
}
로그인 후 복사

이 코드에서는 PdfReaderContentParser를 사용하여 각 페이지의 콘텐츠를 구문 분석합니다. ImageRenderListener는 이미지 렌더링을 처리하는 콜백 메서드를 제공합니다. 각 이미지는 추가로 처리하거나 저장할 수 있는 비트맵 개체로 렌더링됩니다.

위 내용은 .NET에서 iTextSharp를 사용하여 PDF에서 텍스트 및 이미지를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿