Rumah > pembangunan bahagian belakang > tutorial php > HTML Parsing dan Skrin Mengikis dengan Perpustakaan Dom HTML Mudah

HTML Parsing dan Skrin Mengikis dengan Perpustakaan Dom HTML Mudah

Lisa Kudrow
Lepaskan: 2025-02-28 10:50:16
asal
790 orang telah melayarinya

Tutorial ini menunjukkan bagaimana untuk menghuraikan HTML dengan cekap menggunakan parser sumber terbuka, mengelakkan kerumitan ekspresi biasa. Kami akan mengikis Envato Tuts sebagai contoh, mengekstrak tajuk artikel dan penerangan. Ini adalah untuk tujuan ilustrasi; Ingatlah untuk sentiasa mendapatkan kebenaran sebelum mengikis laman web.


  1. persediaan

Mulailah dengan memasang komposer, pengurus pakej php, untuk memudahkan pemasangan perpustakaan.

HTML Parsing and Screen Scraping With the Simple HTML DOM Library

Langkah -langkah selanjutnya terperinci di bawah.

Dokumentasi

Dokumentasi komprehensif boleh didapati di repositori GitHub rasmi projek.

--- HTML Parsing and Screen Scraping With the Simple HTML DOM Library

  1. Aplikasi Praktikal: Mengikis Envato Tuts

Mari buat skrip untuk mengekstrak tajuk artikel dan deskripsi dari Envato Tuts. Ini adalah demonstrasi dan tidak boleh dilakukan tanpa kebenaran. Mengikis pelayan yang berlebihan.

HTML Parsing and Screen Scraping With the Simple HTML DOM Library coretan kod teras:

Ini termasuk perpustakaan yang diperlukan dan memulakan array untuk menyimpan data artikel. Fungsi
use voku\helper\HtmlDomParser;
require_once 'vendor/autoload.php';

$articles = [];
getArticles('https://code.tutsplus.com/tutorials');
Salin selepas log masuk
(ditakrifkan kemudian) mengambil dan memproses laman web.

getArticles


    Pengekstrakan data
  1. Heart of the Script Extracts Maklumat Artikel:

ini melangkah melalui setiap elemen artikel (
$items = $html->find('article');
foreach($items as $post) {
    $articles[] = [
        /* title */ $post->findOne(".posts__post-title")->firstChild()->text(),
        /* description */ $post->findOne("posts__post-teaser")->text()
    ];
}
Salin selepas log masuk
) dan mengekstrak tajuk dan keterangan menggunakan pemilih CSS. Setiap entri

akan mengandungi pasangan tajuk dan penerangan. Contohnya: <article> $articles

$articles[0][0] = "My Article Name Here";
$articles[0][1] = "This is my article description";
Salin selepas log masuk

Pengendalian Pagination
  1. Untuk mengendalikan beberapa halaman, kami mengenal pasti pautan halaman "seterusnya":

HTML Parsing and Screen Scraping With the Simple HTML DOM Library HTML Parsing and Screen Scraping With the Simple HTML DOM Library HTML yang berkaitan: HTML Parsing and Screen Scraping With the Simple HTML DOM Library

Skrip mendapati pautan ini, mengekstrak atribut

, dan panggilan rekursif
<a aria-label="next" class="pagination__button pagination__next-button" href="https://www.php.cn/link/a3cdf7cabc49ea4612b126ae2a30ecbf" rel="next"><i class="fa fa-angle-right"></i></a>
Salin selepas log masuk
untuk halaman berikutnya. Secara kritis, objek

dibersihkan untuk mengelakkan keletihan memori. href


Kesimpulan

Parsing laman web besar boleh memakan masa. Tutorial ini menyediakan asas untuk parsing HTML menggunakan perpustakaan mesra pengguna. Walaupun perpustakaan ini mudah, ingat bahawa kaedah lain, seperti manipulasi DOM terbina dalam PHP dengan XPath, wujud. Sentiasa mengutamakan mendapatkan kebenaran sebelum mengikis mana -mana laman web.

Atas ialah kandungan terperinci HTML Parsing dan Skrin Mengikis dengan Perpustakaan Dom HTML Mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Artikel terbaru oleh pengarang
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan