Dengan perkembangan Internet yang berterusan, akses kepada maklumat menjadi lebih mudah. Walau bagaimanapun, jumlah maklumat yang besar juga membawa kepada kita banyak masalah Bagaimana untuk mendapatkan maklumat yang kita perlukan dengan cekap telah menjadi tugas yang sangat penting. Dalam proses mengautomasikan pemerolehan maklumat, perangkak web digunakan secara meluas.
Perangkak web ialah program yang memperoleh maklumat secara automatik daripada Internet Ia biasanya digunakan untuk tugasan seperti enjin carian, perlombongan data dan penjejakan harga komoditi. Perangkak web akan mengakses tapak web atau halaman web yang ditentukan secara automatik, dan kemudian menghuraikan data HTML atau XML untuk mendapatkan maklumat yang diperlukan.
Hari ini, artikel ini akan memperkenalkan cara mencipta perangkak web mudah menggunakan bahasa PHP. Sebelum kita mula, kita perlu memahami pengetahuan asas bahasa PHP dan beberapa konsep asas pembangunan web.
1. Dapatkan halaman HTML
Langkah pertama perangkak web ialah mendapatkan halaman HTML. Langkah ini boleh dicapai menggunakan fungsi terbina dalam PHP. Sebagai contoh, kita boleh menggunakan fungsi file_get_contents untuk mendapatkan halaman HTML alamat URL dan menyimpannya ke pembolehubah, kodnya adalah seperti berikut:
$url = "https://www.example.com/"; $html = file_get_contents($url);
Dalam kod di atas, kami mentakrifkan pembolehubah $url kepada simpan alamat URL sasaran, dan kemudian gunakan fungsi file_get_contents untuk mendapatkan halaman HTML alamat URL dan menyimpannya dalam pembolehubah $html.
2. Menghuraikan halaman HTML
Selepas mendapatkan halaman HTML, kami perlu mengekstrak maklumat yang diperlukan daripadanya. Halaman HTML biasanya terdiri daripada tag dan atribut tag Oleh itu, kita boleh menggunakan fungsi manipulasi DOM terbina dalam PHP untuk menghuraikan halaman HTML.
Sebelum menggunakan fungsi operasi DOM, kita perlu memuatkan halaman HTML ke dalam objek DOMDocument Kod adalah seperti berikut:
$dom = new DOMDocument(); $dom->loadHTML($html);
Dalam kod di atas, kami mencipta objek DOMDocument kosong. , dan gunakan fungsi loadHTML untuk memuatkan halaman HTML yang diperoleh ke dalam objek DOMDocument.
Seterusnya, kita boleh mendapatkan teg dalam halaman HTML melalui objek DOMDocument Kodnya adalah seperti berikut:
$tags = $dom->getElementsByTagName("tag_name");
Dalam kod di atas, kami menggunakan fungsi getElementsByTagName untuk mendapatkan teg yang ditentukan. dalam halaman HTML. Contohnya, dapatkan semua teg hiperpautan:
$links = $dom->getElementsByTagName("a");
Dapatkan semua teg imej:
$imgs = $dom->getElementsByTagName("img");
Dapatkan semua teg perenggan:
$paras = $dom->getElementsByTagName("p");
3. Parse atribut tag
Selain mendapatkan teg itu sendiri, kita juga perlu menghuraikan atribut tag, contohnya, mendapatkan atribut href bagi semua hiperpautan:
foreach ($links as $link) { $href = $link->getAttribute("href"); // do something with $href }
Dalam kod di atas, kami menggunakan fungsi getAttribute untuk mendapatkan penetapan tag yang ditentukan Nilai atribut kemudiannya disimpan dalam pembolehubah $href.
4. Tapis maklumat yang tidak berguna
Apabila menghuraikan halaman HTML, kami mungkin menemui beberapa maklumat yang tidak berguna, seperti iklan, bar navigasi, dll. Untuk mengelakkan gangguan maklumat ini, kita perlu menggunakan beberapa teknik untuk menapis maklumat yang tidak berguna.
Kaedah penapisan yang biasa digunakan termasuk:
Sebagai contoh, kami hanya boleh mendapatkan teg teks:
$texts = $dom->getElementsByTagName("text");
Menggunakan pemilih CSS boleh mencari teg yang anda perlukan dengan mudah, contohnya, dapatkan semua teg dengan nama kelas "senarai":
rreeePenapisan kata kunci memudahkan untuk mengalih keluar maklumat yang tidak diingini, contohnya, mengalih keluar semua teg yang mengandungi kata kunci "iklan":
$els = $dom->querySelectorAll(".list");
dalam Dalam kod di atas, kami menggunakan fungsi strpos untuk menentukan sama ada kandungan teks label mengandungi kata kunci "pengiklanan" Jika ada, gunakan fungsi removeChild untuk memadamkan label.
5. Simpan data
Akhir sekali, kami perlu menyimpan data yang diperoleh untuk pemprosesan seterusnya. Dalam bahasa PHP, tatasusunan atau rentetan biasanya digunakan untuk menyimpan data.
Sebagai contoh, kita boleh menyimpan semua hiperpautan ke dalam tatasusunan:
foreach ($paras as $para) { if (strpos($para->nodeValue, "广告") !== false) { $para->parentNode->removeChild($para); } }
Dalam kod di atas, kami menggunakan fungsi array_push untuk menyimpan atribut href bagi setiap hiperpautan ke dalam $links_arr dalam tatasusunan.
6. Ringkasan
Melalui pengenalan artikel ini, kami telah mempelajari cara menggunakan bahasa PHP untuk mencipta perangkak web yang mudah. Dalam aplikasi praktikal, kami perlu mengoptimumkan pelaksanaan perangkak berdasarkan keperluan yang berbeza, seperti menambah mekanisme cuba semula, menggunakan IP proksi, dsb. Saya berharap pembaca dapat memahami lebih lanjut prinsip pelaksanaan perangkak web melalui pengenalan artikel ini, dan boleh melaksanakan program perangkak web mereka sendiri dengan mudah.
Atas ialah kandungan terperinci Buat perangkak web mudah menggunakan PHP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!