질문:
다른 방법을 시도해도 구조화된 테이블을 추출할 수 없습니다. PDF 문서의 데이터. 특히, PDF를 HTML로 변환하면 글꼴 문제와 영어가 아닌 텍스트로 인해 만족스럽지 못한 결과가 나옵니다. 또한 향후 PDF에서는 테이블 배치가 달라질 수 있으므로 XY 좌표를 기반으로 추출하는 것은 비실용적입니다.
전문가 분석:
구조화된 스프레드시트와 달리 PDF에는 명시적인 테이블 데이터가 부족합니다. 대신에 인간이 표로 인식하는 선과 문자 모양의 조합을 제시합니다. 표 형식 데이터를 추출하려면 인간의 인식과 유사한 계산 인식 기술이 필요합니다.
PDF가 일관되게 특정 형식을 따르는 특정 상황에서는 패턴을 식별하고 표 내용을 인식하기 위한 규칙을 개발하는 것이 가능할 수 있습니다. 그러나 제공된 PDF 문서에는 추가 문제가 있습니다.
내장 글꼴 문제:
PDF에 주장된 WinAnsiEncoding을 사용하여 인코딩되지 않은 텍스트가 포함되어 있습니다. 이러한 불일치로 인해 예측할 수 없는 문자가 추출되어 직접 텍스트 검색이 불가능해집니다.
텍스트 추출 제한 사항:
신뢰할 수 있는 텍스트 추출 도구인 Adobe Reader에서 복사하여 붙여넣기 역시 의미 있는 결과를 내지 못합니다. 이는 이 경우 광학 문자 인식(OCR) 없이 텍스트 추출이 불가능함을 나타냅니다.
따라서 OCR을 사용하지 않고 PDF 문서에서 구조화된 테이블을 추출하는 것은 현재 불가능합니다.
위 내용은 글꼴 문제와 영어가 아닌 텍스트가 있는 PDF에서 구조화된 테이블을 어떻게 추출할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!