Text aus Microsoft Office-Dateien in PHP extrahieren
Das Abrufen von Text aus hochgeladenen Word-Dokumenten kann eine Herausforderung sein. In diesem Artikel werden Lösungen zum effizienten Extrahieren von Text aus verschiedenen Microsoft Office-Dateiformaten (.doc, .docx, .xlsx, .pptx) und zum Speichern in einer Datenbank für eine bequeme Suche vorgestellt.
Lösung für .doc und .docx-Dateien
Dokumente mit den Dateierweiterungen .doc oder .docx können mit der DocxConversion verarbeitet werden Klasse. Es bietet zwei Methoden:
read_doc() für .doc-Dateien, die die Datei als binäres Blob mit fopen liest.
read_docx() für .docx-Dateien, die sie als komprimierte ZIP-Dateien mit XML-Dateien interpretiert.
Lösung für .xlsx-Dateien (Excel)
Für Excel-Dateien (.xlsx) wird die Funktion xlsx_to_text() verwendet. Es öffnet die Datei als ZIP-Archiv und extrahiert die Datei sharedStrings.xml, die die Textdaten enthält.
Lösung für .pptx-Dateien (PowerPoint)
Ähnlich: pptx_to_text() verarbeitet PowerPoint-Dateien (.pptx). Es öffnet die Datei als ZIP-Archiv und durchläuft die einzelnen XML-Foliendateien, wobei der Text extrahiert wird.
Verwendung
Um diese Funktionen zu nutzen, erstellen Sie eine neue Instanz von die DocxConversion-Klasse und rufen Sie die Methode „convertToText()“ auf. Es ermittelt den Dateityp und wendet die entsprechende Textextraktionsmethode an.
Beispielverwendung:
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
Vorteile
Diese Lösung bietet mehrere Vorteile:
Das obige ist der detaillierte Inhalt vonWie extrahiere ich Text aus Microsoft Office-Dateien in PHP?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!