Merebut Atribut href bagi Elemen A: Regex vs. DOM Parsing
Cuba untuk mengekstrak maklumat pautan daripada halaman HTML memerlukan pengendalian yang teliti daripada atribut href. Walaupun ungkapan biasa menawarkan pendekatan asas, mereka boleh menghadapi kesukaran apabila atribut href tidak diletakkan dahulu dalam teg.
Alternatif yang boleh dipercayai ialah menggunakan penghuraian Model Objek Dokumen (DOM). Begini cara untuk mendapatkan maklumat atribut href dengan berkesan menggunakan DOM:
$dom = new DOMDocument; $dom->loadHTML($html); foreach ($dom->getElementsByTagName('a') as $node) { echo $dom->saveHtml($node), PHP_EOL; }
Kod ini mencari dan mengeluarkan "outerHTML" bagi semua elemen A dalam rentetan $html.
Selain itu, DOM menyediakan keupayaan berikut:
$nodes = $xpath->query('//a/@href'); foreach ($nodes as $href) { echo $href->nodeValue; // echo current attribute value }
DOM menyediakan penyelesaian yang komprehensif untuk menghuraikan HTML dan mengekstrak maklumat atribut href dengan cekap. Pertimbangkan pendekatan ini untuk hasil yang mantap dan boleh dipercayai. Juga, rujuk sumber yang disediakan untuk penerokaan lanjut.
Atas ialah kandungan terperinci Penghuraian Regex lwn. DOM: Mana yang Terbaik untuk Mengekstrak Atribut `href` daripada HTML?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!