> 백엔드 개발 > C++ > iTextSharp를 사용하여 PDF에서 영어가 아닌 텍스트를 추출하고 인코딩 문제를 처리하려면 어떻게 해야 합니까?

iTextSharp를 사용하여 PDF에서 영어가 아닌 텍스트를 추출하고 인코딩 문제를 처리하려면 어떻게 해야 합니까?

DDD
풀어 주다: 2025-01-11 07:28:42
원래의
243명이 탐색했습니다.

How Can I Extract Non-English Text from PDFs using iTextSharp and Handle Encoding Issues?

C#에서 iTextSharp를 사용하여 PDF 콘텐츠 추출: 영어가 아닌 문자 문제 해결

이 기사에서는 C#의 iTextSharp를 사용하여 PDF 파일에서 영어가 아닌 텍스트를 추출하는 문제를 다룹니다. 문제는 페르시아어나 아랍어와 같은 언어를 다룰 때 텍스트가 깨져 나타나는 경우가 많습니다.

문제 원인 파악

근본 원인은 불필요한 인코딩 변환에 있습니다.

<code class="language-csharp">currentText = Encoding.UTF8.GetString(Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.UTF8.GetBytes(currentText)));</code>
로그인 후 복사

이 코드는 텍스트를 UTF-8 바이트 배열로 변환한 다음 다시 UTF-8 문자열로 변환합니다. 이는 기본 ASCII 범위(0-127)를 벗어난 문자를 실수로 손상시키는 중복 프로세스입니다.

해결책: 단순화된 인코딩

해결책은 간단합니다. 중복되는 인코딩 단계를 제거하는 것입니다. 수정된 코드는 다음과 같습니다.

<code class="language-csharp">public string ReadPdfFile(string fileName) {
    StringBuilder text = new StringBuilder();

    if (File.Exists(fileName)) {
        PdfReader pdfReader = new PdfReader(fileName);

        // ... (rest of the code remains unchanged) ...
    }
    return text.ToString();
}</code>
로그인 후 복사

추가 주의사항

올바른 표시를 위해 애플리케이션의 렌더링 엔진이 유니코드를 지원하는지 확인하세요. 최적의 성능을 위해서는 최신 iTextSharp 버전(현재 5.2.0.0)을 사용하는 것이 좋습니다.

오른쪽에서 왼쪽으로 쓰는 텍스트 처리

수정된 코드로 인코딩 문제는 해결되지만 오른쪽에서 왼쪽으로 쓰는 언어(예: 아랍어 및 히브리어)는 여전히 문제가 될 수 있습니다. 추출된 텍스트가 잘못된 순서로 나타날 수 있습니다. 이는 PDF 형식 자체의 한계로 보이며, 특정 언어에 따라 수동 재정렬이 필요할 수도 있습니다.

위 내용은 iTextSharp를 사용하여 PDF에서 영어가 아닌 텍스트를 추출하고 인코딩 문제를 처리하려면 어떻게 해야 합니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿