PHP で Word ファイル .doc、.docx、.xlsx、.pptx からテキストを抽出する方法
アップロードされた Word 文書からのテキストの抽出これは、文書内の検索などのタスク、特に履歴書や履歴書が関係するシナリオでは非常に重要です。この記事では、この一般的な問題に対する包括的な解決策を提供します。
Doc/Docx ファイルの抽出
Doc/Docx ファイルはバイナリ BLOB です。 .doc ファイルの場合は fopen 関数を使用でき、.docx ファイルの場合は zip_open 関数を利用できます。これは、docx ファイルは本質的に XML ファイルを含む ZIP ファイルであるためです。
Excel ファイルの抽出
XLSX ファイルからテキストを抽出するには、特定の XML ファイル xl/sharedStrings.xml。このファイルからコンテンツを抽出し、プレーン テキストの HTML タグを取り除きます。
PowerPoint ファイルの抽出
PPTX ファイルも同様のアプローチに従います。スライド XML ファイルを繰り返し処理し、その内容を抽出して連結します。クラス実装
これらの抽出をカプセル化するDocxConversion という名前の PHP クラスを提供します。方法。このクラスは引数としてファイル パスを受け取り、次の関数を持ちます:
使用法
このクラスを使用するには、ファイル パスを使用してインスタンスを作成し、convertToText() メソッド。このメソッドは、抽出されたテキストを文字列として返します。
例:$docObj = new DocxConversion("test.docx"); $docText = $docObj->convertToText(); echo $docText;
以上がPHP で Word、Excel、PowerPoint ファイルからテキストを抽出する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。