


Bagaimana untuk Membina Crawler Web PHP untuk Mengumpul Data daripada Berbilang Pautan?
Nov 08, 2024 am 06:50 AMPHP Web Crawler: Mengumpul Data daripada Pelbagai Pautan
Soalan:
Buat PHP skrip untuk mendapatkan semula data daripada berbilang pautan pada halaman web dan menyimpannya dalam tempatan fail.
Jawapan:
Menggunakan DOM dan Kawalan Kedalaman:
function crawl_page($url, $depth = 5) { static $seen = array(); if (isset($seen[$url]) || $depth === 0) { return; } $seen[$url] = true; $dom = new DOMDocument('1.0'); @$dom->loadHTMLFile($url); $anchors = $dom->getElementsByTagName('a'); foreach ($anchors as $element) { $href = $element->getAttribute('href'); // Handle relative URLs if (0 !== strpos($href, 'http')) { $path = '/' . ltrim($href, '/'); if (extension_loaded('http')) { $href = http_build_url($url, array('path' => $path)); } else { $parts = parse_url($url); $href = $parts['scheme'] . '://'; $href .= $parts['host']; if (isset($parts['port'])) { $href .= ':' . $parts['port']; } $href .= dirname($parts['path'], 1).$path; } } crawl_page($href, $depth - 1); } // Output data echo "URL:", $url, PHP_EOL, "CONTENT:", PHP_EOL, $dom->saveHTML(), PHP_EOL, PHP_EOL; } // Usage crawl_page("http://hobodave.com", 2);
Nota:
- Versi ini menggunakan penghuraian DOM, yang lebih mantap daripada Penghuraian RegEx.
- Ia mengendalikan URL relatif dengan betul.
- Ia menggunakan kawalan kedalaman untuk mengelakkan gelung tak terhingga.
- Output digemakan ke STDOUT, membolehkan anda mengubah hala ke fail.
Atas ialah kandungan terperinci Bagaimana untuk Membina Crawler Web PHP untuk Mengumpul Data daripada Berbilang Pautan?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Artikel Panas

Alat panas Tag

Artikel Panas

Tag artikel panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

11 skrip pemendek URL terbaik PHP (percuma dan premium)

Bekerja dengan Data Sesi Flash di Laravel

Respons HTTP yang dipermudahkan dalam ujian Laravel

Bina aplikasi React dengan hujung belakang Laravel: Bahagian 2, React

Curl dalam PHP: Cara Menggunakan Pelanjutan PHP Curl dalam API REST

12 skrip sembang php terbaik di codecanyon
