Rumah > pembangunan bahagian belakang > tutorial php > Bagaimanakah DOMDocument dan XPath boleh digunakan untuk Menyasarkan dan Mengekstrak Kandungan Teks Tertentu daripada HTML?

Bagaimanakah DOMDocument dan XPath boleh digunakan untuk Menyasarkan dan Mengekstrak Kandungan Teks Tertentu daripada HTML?

Mary-Kate Olsen
Lepaskan: 2024-10-30 09:51:27
asal
1047 orang telah melayarinya

How can DOMDocument and XPath be used to Target and Extract Specific Text Content from HTML?

DOMDocument Parsing untuk Menyasarkan Kandungan Khusus

Menggunakan "DOMDocument", sebuah perpustakaan PHP yang berkuasa, membolehkan penghuraian tepat dokumen HTML. Tidak seperti "getElementsByTagName", yang mendapatkan semula semua teg dengan nama tertentu, kaedah ini menggunakan pertanyaan XPath untuk menyasarkan elemen yang diingini dengan berkesan.

Tangkap Nod Teks dalam Konteks Khusus

Kepada mengekstrak kandungan teks tertentu, prosesnya melibatkan:

  • Memuatkan rentetan HTML ke dalam objek DOM menggunakan "DOMDocument::loadHTML".
  • Memulakan objek "XPath" menggunakan "DOMXPath baharu ($dom)".
  • Menggunakan pertanyaan XPath yang menentukan nod sasaran. Contohnya:
$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');
Salin selepas log masuk

Pertanyaan ini mendapatkan semula semua

teg dengan kelas "teks" yang bersarang dalam
teg dengan kelas "utama".

Lelaran melalui senarai elemen yang terhasil menggunakan gelung "foreach" membolehkan pengekstrakan "nodeValue", yang mengandungi teks sebenar:

foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}
Salin selepas log masuk

Contoh Pelaksanaan

Pertimbangkan coretan HTML berikut:

<code class="html"><div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div></code>
Salin selepas log masuk

Menggunakan pertanyaan yang disediakan, outputnya ialah:

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)
Salin selepas log masuk

Ini menunjukkan keupayaan untuk mengekstrak kandungan teks tertentu dengan tepat dalam struktur HTML hierarki menggunakan "DOMDocument" dan XPath.

Atas ialah kandungan terperinci Bagaimanakah DOMDocument dan XPath boleh digunakan untuk Menyasarkan dan Mengekstrak Kandungan Teks Tertentu daripada HTML?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

sumber:php.cn
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan