HTML Parsing dan Skrin Mengikis dengan Perpustakaan Dom HTML Mudah-tutorial php-php.cn

HTML Parsing dan Skrin Mengikis dengan Perpustakaan Dom HTML Mudah

Lisa Kudrow

Lepaskan： 2025-02-28 10:50:16

asal

790 orang telah melayarinya

Tutorial ini menunjukkan bagaimana untuk menghuraikan HTML dengan cekap menggunakan parser sumber terbuka, mengelakkan kerumitan ekspresi biasa. Kami akan mengikis Envato Tuts sebagai contoh, mengekstrak tajuk artikel dan penerangan. Ini adalah untuk tujuan ilustrasi; Ingatlah untuk sentiasa mendapatkan kebenaran sebelum mengikis laman web.

persediaan

Mulailah dengan memasang komposer, pengurus pakej php, untuk memudahkan pemasangan perpustakaan.

HTML Parsing and Screen Scraping With the Simple HTML DOM Library

Langkah -langkah selanjutnya terperinci di bawah.

Dokumentasi

Dokumentasi komprehensif boleh didapati di repositori GitHub rasmi projek.

--- HTML Parsing and Screen Scraping With the Simple HTML DOM Library

Aplikasi Praktikal: Mengikis Envato Tuts

Mari buat skrip untuk mengekstrak tajuk artikel dan deskripsi dari Envato Tuts. Ini adalah demonstrasi dan tidak boleh dilakukan tanpa kebenaran. Mengikis pelayan yang berlebihan.

~~coretan kod teras:~~

Ini termasuk perpustakaan yang diperlukan dan memulakan array untuk menyimpan data artikel. Fungsi

use voku\helper\HtmlDomParser;
require_once 'vendor/autoload.php';

$articles = [];
getArticles('https://code.tutsplus.com/tutorials');

Salin selepas log masuk

(ditakrifkan kemudian) mengambil dan memproses laman web.

getArticles

ini melangkah melalui setiap elemen artikel (

$items = $html->find('article');
foreach($items as $post) {
    $articles[] = [
        /* title */ $post->findOne(".posts__post-title")->firstChild()->text(),
        /* description */ $post->findOne("posts__post-teaser")->text()
    ];
}

Salin selepas log masuk

) dan mengekstrak tajuk dan keterangan menggunakan pemilih CSS. Setiap entri

akan mengandungi pasangan tajuk dan penerangan. Contohnya: <article> $articles

$articles[0][0] = "My Article Name Here";
$articles[0][1] = "This is my article description";

Salin selepas log masuk

Pengendalian Pagination

Untuk mengendalikan beberapa halaman, kami mengenal pasti pautan halaman "seterusnya":

HTML Parsing and Screen Scraping With the Simple HTML DOM Library HTML yang berkaitan:

Skrip mendapati pautan ini, mengekstrak atribut

, dan panggilan rekursif

<a aria-label="next" class="pagination__button pagination__next-button" href="https://www.php.cn/link/a3cdf7cabc49ea4612b126ae2a30ecbf" rel="next"><i class="fa fa-angle-right"></i></a>

Salin selepas log masuk

untuk halaman berikutnya. Secara kritis, objek

dibersihkan untuk mengelakkan keletihan memori. href

Kesimpulan

Parsing laman web besar boleh memakan masa. Tutorial ini menyediakan asas untuk parsing HTML menggunakan perpustakaan mesra pengguna. Walaupun perpustakaan ini mudah, ingat bahawa kaedah lain, seperti manipulasi DOM terbina dalam PHP dengan XPath, wujud. Sentiasa mengutamakan mendapatkan kebenaran sebelum mengikis mana -mana laman web.

Atas ialah kandungan terperinci HTML Parsing dan Skrin Mengikis dengan Perpustakaan Dom HTML Mudah. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

HTML Parsing dan Skrin Mengikis dengan Perpustakaan Dom HTML Mudah

persediaan

Kesimpulan