So extrahieren Sie Text aus Word-Dateien .doc, .docx, .xlsx, .pptx in PHP
Extrahieren von Text aus hochgeladenen Word-Dokumenten ist für Aufgaben wie die Suche in Dokumenten von entscheidender Bedeutung, insbesondere in Szenarien mit Lebensläufen/Lebensläufen. Dieser Artikel bietet eine umfassende Lösung für dieses häufige Problem.
Doc/Docx-Dateiextraktion
Doc/Docx-Dateien sind binäre Blobs. Für .doc-Dateien können Sie die Funktion fopen verwenden, während Sie für .docx-Dateien die Funktion zip_open verwenden können. Dies liegt daran, dass docx-Dateien im Wesentlichen ZIP-Dateien sind, die XML-Dateien enthalten.
Excel-Dateiextraktion
Um Text aus XLSX-Dateien zu extrahieren, konzentrieren wir uns auf eine bestimmte XML-Datei, xl/sharedStrings.xml. Wir extrahieren den Inhalt aus dieser Datei und entfernen HTML-Tags für einfachen Text.
PowerPoint-Dateiextraktion
PPTX-Dateien folgen einem ähnlichen Ansatz. Wir durchlaufen Folien-XML-Dateien, extrahieren und verketten deren Inhalte.
Klassenimplementierung
Wir stellen eine PHP-Klasse namens DocxConversion bereit, die diese Extraktion kapselt Methoden. Die Klasse akzeptiert einen Dateipfad als Argument und verfügt über die folgenden Funktionen:
Verwendung
Um diese Klasse zu verwenden, instanziieren Sie sie mit dem Dateipfad und rufen Sie convertToText( ) Methode. Die Methode gibt den extrahierten Text als Zeichenfolge zurück.
Beispiel:
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
Dieses Skript extrahiert den Text aus der angegebenen .docx-Datei und zeigt ihn an.
Das obige ist der detaillierte Inhalt vonWie extrahiere ich Text aus Word-, Excel- und PowerPoint-Dateien in PHP?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!