Bagaimana Mengekstrak Teks daripada Word dan Dokumen Pejabat: Penyelesaian yang Mudah dan Cekap?

Linda Hamilton
Lepaskan: 2024-11-14 21:39:02
asal
248 orang telah melayarinya

How to Extract Text from Word and Office Documents: A Simple and Efficient Solution?

Cara Mengekstrak Teks daripada Word dan Dokumen Pejabat:

Mendapatkan teks daripada dokumen Word yang dimuat naik pengguna menjadi penting untuk tugas seperti carian kata kunci dan analisis data. Berikut ialah penyelesaian yang cekap untuk mengekstrak teks daripada fail dalam pelbagai format Microsoft Office.

DOCX/DOC:

PHP Docx Reader: Pustaka ini secara langsung menukar fail DOCX kepada teks tanpa kebergantungan tambahan.

XLSX/PPTX:

Kelas yang disediakan memperluaskan fungsinya untuk mengekstrak teks daripada Excel (XLSX) dan PowerPoint (PPTX) fail, menyediakan penyelesaian serba boleh.

Pelaksanaan:

  1. Buat contoh kelas DocxConversion dengan laluan fail sebagai argumen.
  2. Panggil kaedah convertToText untuk mendapatkan semula teks yang diekstrak.

Penggunaan:

$docObj = new DocxConversion("test.doc");
//$docObj = new DocxConversion("test.docx");
//$docObj = new DocxConversion("test.xlsx");
//$docObj = new DocxConversion("test.pptx");
$docText = $docObj->convertToText();
Salin selepas log masuk

Butiran Teknikal:

  • Fail DOC: Baca menggunakan fopen, kerana ia adalah format binari.
  • Fail DOCX: Dianggap sebagai fail zip yang mengandungi dokumen XML, baca dengan zip_open .
  • Fail XLSX: Gunakan fail XML "xl/sharedStrings.xml" untuk mengekstrak kandungan slaid.
  • Fail PPTX: Imbas melalui Fail XML dalam "ppt/slaid" untuk mendapatkan semula teks.

Maklumat Tambahan:

  • Kelas mengendalikan jenis fail yang tidak sah dan mengembalikan mesej ralat yang sesuai .
  • Fail dokumen dibaca menggunakan fgets untuk mengekalkan pemisah baris dan ruang kosong semasa pengekstrakan teks.

Atas ialah kandungan terperinci Bagaimana Mengekstrak Teks daripada Word dan Dokumen Pejabat: Penyelesaian yang Mudah dan Cekap?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan