Perangkak PHP ialah program yang memperoleh maklumat halaman web secara automatik Ia boleh mendapatkan kod halaman web, merangkak data dan menyimpannya secara setempat atau dalam pangkalan data. Menggunakan perangkak boleh mendapatkan sejumlah besar data dengan cepat, memberikan bantuan yang hebat untuk analisis dan pemprosesan data seterusnya. Artikel ini akan memperkenalkan cara menggunakan PHP untuk melaksanakan perangkak mudah untuk mendapatkan kod sumber halaman web dan analisis kandungan.
1. Dapatkan kod sumber halaman web
Sebelum kita bermula, kita harus terlebih dahulu memahami struktur asas protokol HTTP dan HTML. HTTP ialah singkatan kepada HyperText Transfer Protocol, iaitu protokol yang digunakan untuk memindahkan halaman web dan data. Halaman web biasanya ditulis dalam HTML, bahasa penanda yang digunakan untuk menerangkan struktur dan kandungan halaman web. Sekarang setelah kami memahami asas ini, kami boleh mula menulis perangkak PHP kami.
Pertama, kami perlu menyediakan URL yang menentukan halaman web yang ingin kami rangkak. Dalam PHP, kita boleh menggunakan fungsi file_get_contents untuk mendapatkan kod sumber halaman web. Fungsi ini akan membaca keseluruhan kandungan halaman web yang sepadan dengan URL yang ditentukan dalam bentuk rentetan. Contohnya:
$url = "https://www.example.com"; $html = file_get_contents($url);
Dengan cara ini, kod sumber halaman web yang dibaca akan disimpan dalam pembolehubah $html. Perlu diingatkan bahawa fungsi file_get_contents hanya boleh membaca fail jauh Jika anda perlu membaca fail tempatan, anda harus menggunakan fungsi fail.
2. Analisis Kandungan
Selepas mendapatkan kod sumber halaman web, kami perlu mengekstrak data yang kami perlukan. Secara umumnya, halaman web terdiri daripada kod HTML. Kita perlu menghuraikan kod HTML untuk mendapatkan data yang kita perlukan.
Dalam PHP, terdapat banyak perpustakaan penghuraian HTML untuk dipilih, seperti DOMDocument, DOM HTML Mudah, dll. Di sini kami memperkenalkan pustaka penghuraian yang lebih biasa digunakan-Simple HTML DOM. Pustaka DOM HTML Mudah boleh digunakan untuk menghuraikan dan memanipulasi dokumen HTML Ia menyediakan antara muka yang mudah dan mudah digunakan untuk mengekstrak data dengan mudah daripada HTML.
Sebelum menggunakan perpustakaan DOM HTML Mudah, kita perlu memuat turun dan mengimport fail perpustakaan terlebih dahulu. Alamat muat turun ialah https://sourceforge.net/projects/simplehtmldom/, dan anda boleh nyahzipnya selepas memuat turun.
Langkah-langkah untuk menggunakan perpustakaan DOM HTML Mudah adalah seperti berikut:
include("simple_html_dom.php");
$html = new simple_html_dom();
$html->load($html);
$element = $html->find("tagName");
di mana tagName ialah nama tag bagi elemen yang perlu dipilih Contohnya, jika kita perlu mendapatkan semua teg, kita boleh menggunakan $html->find("a")
.
$value = $element->attributeName;
di mana attributeName ialah nama atribut yang perlu diperolehi Contohnya, jika kita perlu mendapatkan atribut href bagi teg, kita boleh menggunakan $element->href
.
$html->clear(); unset($html);
Sebagai contoh, jika kita perlu mendapatkan semua pautan dari halaman utama Baidu, kita boleh melakukannya seperti berikut:
load($html); $links = $dom->find("a"); foreach ($links as $link) { echo $link->href . "
"; } $dom->clear(); unset($dom);
Dengan kod di atas, kami boleh mendapatkan semua pautan dalam laman utama Baidu.
3. Ringkasan
Artikel ini memperkenalkan cara menggunakan PHP untuk menulis perangkak, termasuk mendapatkan kod sumber halaman web dan penghuraian kandungan. Anda boleh menggunakan fungsi file_get_contents untuk mendapatkan kod sumber halaman web dan anda boleh menggunakan perpustakaan DOM HTML Mudah untuk menghuraikan kod HTML. Pembaca boleh mengubah dan memanjangkannya mengikut keperluan mereka sendiri dan melaksanakan program perangkak PHP mereka sendiri.
Atas ialah kandungan terperinci Amalan perangkak PHP: mendapatkan kod sumber halaman web dan analisis kandungan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!