PHP에서 Word 파일 .doc, .docx, .xlsx, .pptx에서 텍스트를 추출하는 방법
업로드된 Word 문서에서 텍스트 추출 특히 이력서/이력서와 관련된 시나리오에서 문서 내 검색과 같은 작업에 매우 중요합니다. 이 문서에서는 이러한 일반적인 문제에 대한 포괄적인 솔루션을 제공합니다.
Doc/Docx 파일 추출
Doc/Docx 파일은 바이너리 blob입니다. .doc 파일의 경우 fopen 기능을 사용할 수 있고, .docx 파일의 경우 zip_open 기능을 사용할 수 있습니다. 이는 docx 파일이 본질적으로 XML 파일을 포함하는 ZIP 파일이기 때문입니다.
Excel 파일 추출
XLSX 파일에서 텍스트를 추출하려면 특정 XML 파일인 xl/sharedStrings.xml. 이 파일에서 콘텐츠를 추출하고 일반 텍스트용 HTML 태그를 제거합니다.
PowerPoint 파일 추출
PPTX 파일도 비슷한 접근 방식을 따릅니다. 우리는 슬라이드 XML 파일을 반복하면서 그 내용을 추출하고 연결합니다.
클래스 구현
우리는 이러한 추출을 캡슐화하는 DocxConversion이라는 PHP 클래스를 제공합니다. 행동 양식. 클래스는 파일 경로를 인수로 받아들이고 다음 기능을 갖습니다.
사용법
이 클래스를 사용하려면 파일 경로로 인스턴스화하고 convertToText() 메서드를 호출하세요. 이 메소드는 추출된 텍스트를 문자열로 반환합니다.
예:
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
이 스크립트는 지정된 .docx 파일에서 텍스트를 추출하여 표시합니다.
위 내용은 PHP에서 Word, Excel 및 PowerPoint 파일에서 텍스트를 추출하는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!