Comment extraire le texte d'un fichier Word .doc, .docx, .xlsx, .pptx en PHP
Extraire du texte à partir de documents Word téléchargés est crucial pour des tâches telles que la recherche dans des documents, en particulier dans les scénarios impliquant des CV. Cet article fournit une solution complète à ce problème courant.
Extraction de fichiers Doc/Docx
Les fichiers Doc/Docx sont des blobs binaires. Pour les fichiers .doc, vous pouvez utiliser la fonction fopen, tandis que pour les fichiers .docx, vous pouvez utiliser la fonction zip_open. En effet, les fichiers docx sont essentiellement des fichiers ZIP contenant des fichiers XML.
Extraction de fichiers Excel
Pour extraire le texte des fichiers XLSX, nous nous concentrons sur un fichier XML spécifique,
🎜>xl/sharedStrings.xml. Nous extrayons le contenu de ce fichier et supprimons les balises HTML pour le texte brut.
Extraction de fichiers PowerPointLes fichiers PPTX suivent une approche similaire. Nous parcourons les fichiers XML de diapositives, extrayons et concaténons leur contenu.
Implémentation de classeNous fournissons une classe PHP nommée
DocxConversionUsage
Pour utiliser cette classe, instanciez-la avec le chemin du fichier et appelez
convertToText() méthode. La méthode renvoie le texte extrait sous forme de chaîne.
$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!