Comment extraire du texte à partir de fichiers Word, Excel et PowerPoint en PHP ?

Linda Hamilton
Libérer: 2024-11-17 14:15:02
original
548 Les gens l'ont consulté

How to Extract Text from Word, Excel, and PowerPoint Files in PHP?

Comment extraire le texte d'un fichier Word .doc, .docx, .xlsx, .pptx en PHP

Extraire du texte à partir de documents Word téléchargés est crucial pour des tâches telles que la recherche dans des documents, en particulier dans les scénarios impliquant des CV. Cet article fournit une solution complète à ce problème courant.

Extraction de fichiers Doc/Docx

Les fichiers Doc/Docx sont des blobs binaires. Pour les fichiers .doc, vous pouvez utiliser la fonction fopen, tandis que pour les fichiers .docx, vous pouvez utiliser la fonction zip_open. En effet, les fichiers docx sont essentiellement des fichiers ZIP contenant des fichiers XML.

Extraction de fichiers Excel

Pour extraire le texte des fichiers XLSX, nous nous concentrons sur un fichier XML spécifique,

🎜>xl/sharedStrings.xml

. Nous extrayons le contenu de ce fichier et supprimons les balises HTML pour le texte brut.

Extraction de fichiers PowerPoint

Les fichiers PPTX suivent une approche similaire. Nous parcourons les fichiers XML de diapositives, extrayons et concaténons leur contenu.

Implémentation de classe

Nous fournissons une classe PHP nommée

DocxConversion
    qui encapsule ces extractions. méthodes. La classe accepte un chemin de fichier comme argument et a les fonctions suivantes :
  • read_doc
  • () : gère l'extraction du fichier .doc.
  • read_docx
  • () : gère le fichier .docx extraction.
  • xlsx_to_text
  • () : gère l'extraction du fichier .xlsx.
  • pptx_to_text
  • () : gère l'extraction du fichier .pptx.
  • convertToText
() : choisit l'extraction appropriée méthode basée sur l'extension du fichier.

Usage

Pour utiliser cette classe, instanciez-la avec le chemin du fichier et appelez

convertToText

() méthode. La méthode renvoie le texte extrait sous forme de chaîne.

$docObj = new DocxConversion("test.docx");
$docText = $docObj->convertToText();
echo $docText;
Copier après la connexion
Exemple :

Ce script extraira le texte du fichier .docx spécifié et l'affichera.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal