Lecture des fichiers docx
Les fichiers docx sont en réalité composés de nombreux fichiers XML dont le contenu existe en word/document .xml à l'intérieur.
Nous trouvons un fichier docx et l'ouvrons avec un fichier zip (ou changeons le nom du suffixe docx en zip puis décompressons-le) (apprentissage recommandé : Tutoriel vidéo PHP)
Il y a document.xml dans le répertoire word Le contenu du fichier docx existe dans document.xml.
Le code est tel. suit :
function parseWord($file) { $content = ""; $zip = new ZipArchive ( ); if ($zip->open ($file) === TRUE ) { for($i = 0; $i < $zip->numFiles; $i ++) { $entry = $zip->getNameIndex ( $i ); if (pathinfo ($entry,PATHINFO_BASENAME) == "document.xml") { $zip->extractTo (pathinfo ($file, PATHINFO_DIRNAME ) . "/" . pathinfo ($file, PATHINFO_FILENAME ), array ( $entry ) ); $filepath = pathinfo ($file, PATHINFO_DIRNAME ) . "/" . pathinfo ( $file, PATHINFO_FILENAME ) . "/" . $entry; $content = strip_tags ( file_get_contents ( $filepath ) ); break; } } $zip->close (); return $content; } else { echo 'no'; } }
Il est à noter :
Le premier fichier $file ne peut pas être dans le même fichier répertoire que le code actuel, $file est stocké dans un dossier séparé
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!