글꼴 문제와 영어가 아닌 텍스트가 있는 PDF에서 구조화된 테이블을 어떻게 추출할 수 있습니까?-파이썬 튜토리얼-php.cn

PDF 문서에서 구조화된 테이블 추출

집

백엔드 개발

파이썬 튜토리얼

글꼴 문제와 영어가 아닌 텍스트가 있는 PDF에서 구조화된 테이블을 어떻게 추출할 수 있습니까?

Linda Hamilton

Oct 30, 2024 pm 04:55 PM

How Can I Extract Structured Tables from a PDF with Font Issues and Non-English Text?

PDF 문서에서 구조화된 테이블 추출

질문:

다른 방법을 시도해도 구조화된 테이블을 추출할 수 없습니다. PDF 문서의 데이터. 특히, PDF를 HTML로 변환하면 글꼴 문제와 영어가 아닌 텍스트로 인해 만족스럽지 못한 결과가 나옵니다. 또한 향후 PDF에서는 테이블 배치가 달라질 수 있으므로 XY 좌표를 기반으로 추출하는 것은 비실용적입니다.

전문가 분석:

구조화된 스프레드시트와 달리 PDF에는 명시적인 테이블 데이터가 부족합니다. 대신에 인간이 표로 인식하는 선과 문자 모양의 조합을 제시합니다. 표 형식 데이터를 추출하려면 인간의 인식과 유사한 계산 인식 기술이 필요합니다.

PDF가 일관되게 특정 형식을 따르는 특정 상황에서는 패턴을 식별하고 표 내용을 인식하기 위한 규칙을 개발하는 것이 가능할 수 있습니다. 그러나 제공된 PDF 문서에는 추가 문제가 있습니다.

내장 글꼴 문제:

PDF에 주장된 WinAnsiEncoding을 사용하여 인코딩되지 않은 텍스트가 포함되어 있습니다. 이러한 불일치로 인해 예측할 수 없는 문자가 추출되어 직접 텍스트 검색이 불가능해집니다.

텍스트 추출 제한 사항:

신뢰할 수 있는 텍스트 추출 도구인 Adobe Reader에서 복사하여 붙여넣기 역시 의미 있는 결과를 내지 못합니다. 이는 이 경우 광학 문자 인식(OCR) 없이 텍스트 추출이 불가능함을 나타냅니다.

따라서 OCR을 사용하지 않고 PDF 문서에서 구조화된 테이블을 추출하는 것은 현재 불가능합니다.

위 내용은 글꼴 문제와 영어가 아닌 텍스트가 있는 PDF에서 구조화된 테이블을 어떻게 추출할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.