Wie extrahiere ich Text aus Word-, Excel- und PowerPoint-Dateien in PHP?

Linda Hamilton
Freigeben: 2024-11-17 14:15:02
Original
549 Leute haben es durchsucht

How to Extract Text from Word, Excel, and PowerPoint Files in PHP?

So extrahieren Sie Text aus Word-Dateien .doc, .docx, .xlsx, .pptx in PHP

Extrahieren von Text aus hochgeladenen Word-Dokumenten ist für Aufgaben wie die Suche in Dokumenten von entscheidender Bedeutung, insbesondere in Szenarien mit Lebensläufen/Lebensläufen. Dieser Artikel bietet eine umfassende Lösung für dieses häufige Problem.

Doc/Docx-Dateiextraktion

Doc/Docx-Dateien sind binäre Blobs. Für .doc-Dateien können Sie die Funktion fopen verwenden, während Sie für .docx-Dateien die Funktion zip_open verwenden können. Dies liegt daran, dass docx-Dateien im Wesentlichen ZIP-Dateien sind, die XML-Dateien enthalten.

Excel-Dateiextraktion

Um Text aus XLSX-Dateien zu extrahieren, konzentrieren wir uns auf eine bestimmte XML-Datei, xl/sharedStrings.xml. Wir extrahieren den Inhalt aus dieser Datei und entfernen HTML-Tags für einfachen Text.

PowerPoint-Dateiextraktion

PPTX-Dateien folgen einem ähnlichen Ansatz. Wir durchlaufen Folien-XML-Dateien, extrahieren und verketten deren Inhalte.

Klassenimplementierung

Wir stellen eine PHP-Klasse namens DocxConversion bereit, die diese Extraktion kapselt Methoden. Die Klasse akzeptiert einen Dateipfad als Argument und verfügt über die folgenden Funktionen:

  • read_doc(): Verarbeitet die Extraktion von .doc-Dateien.
  • read_docx (): Behandelt die .docx-Datei Extraktion.
  • xlsx_to_text(): Behandelt die Extraktion von .xlsx-Dateien.
  • pptx_to_text(): Behandelt die Extraktion von .pptx-Dateien.
  • convertToText(): Wählt die entsprechende Extraktionsmethode basierend auf der Dateierweiterung.

Verwendung

Um diese Klasse zu verwenden, instanziieren Sie sie mit dem Dateipfad und rufen Sie convertToText( ) Methode. Die Methode gibt den extrahierten Text als Zeichenfolge zurück.

Beispiel:

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;
Nach dem Login kopieren

Dieses Skript extrahiert den Text aus der angegebenen .docx-Datei und zeigt ihn an.

Das obige ist der detaillierte Inhalt vonWie extrahiere ich Text aus Word-, Excel- und PowerPoint-Dateien in PHP?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage