Cara menangani strategi anti-perangkak tapak web: Petua untuk PHP dan phpSpider!
Dengan perkembangan Internet, semakin banyak tapak web mula mengambil langkah anti-crawler untuk melindungi data mereka. Bagi pembangun, menghadapi strategi anti-crawler mungkin menghalang program perangkak daripada berjalan dengan betul, jadi beberapa kemahiran diperlukan untuk menanganinya. Dalam artikel ini, saya akan berkongsi beberapa kemahiran mengatasi dengan PHP dan phpSpider untuk rujukan anda.
Salah satu matlamat utama strategi anti-rangkak tapak web ialah untuk mengenal pasti permintaan perangkak. Untuk menangani strategi ini, kami boleh menyamar sebagai pengguna penyemak imbas dengan mengubah suai pengepala permintaan. Berikut ialah contoh mengubah suai pengepala permintaan melalui kod PHP:
$url = 'https://example.com'; $opts = array( 'http' => array( 'header' => 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36', ), ); $context = stream_context_create($opts); $response = file_get_contents($url, false, $context);
Kod di atas akan menghantar permintaan dengan medan Ejen Pengguna yang ditentukan supaya tapak web tidak dapat mengenal pasti dengan mudah bahawa permintaan kami adalah daripada perangkak.
Banyak tapak web menggunakan kuki untuk mengesahkan identiti pengguna dan juga boleh digunakan untuk menentukan sama ada permintaan itu datang daripada pengguna yang sah. Untuk mengakses laman web jenis ini dengan betul, kami perlu memproses kuki. Berikut ialah contoh kod untuk menggunakan kuki dalam phpSpider:
$spider = new phpspider(); $spider->cookie = 'user=123456'; $spider->on_fetch_url = function ($url, &$html, $spider) { $html = curl_request($url, false, $spider->cookie); return true; }; $spider->start();
Dalam kod di atas, kami menetapkan nilai kuki kepada user=123456
dan menghantarnya sebagai parameter apabila meminta halaman web. Dengan cara ini, laman web akan menganggap bahawa kita adalah pengguna yang sah. user=123456
,并在请求网页时将其作为参数传递。这样,网站就会认为我们是一个合法用户。
网站也会根据IP地址来判断请求的合法性。为了应对这种情况,我们可以使用代理IP来隐藏真实IP。以下是在phpSpider中使用代理IP的示例代码:
$spider = new phpspider(); $spider->proxy = '127.0.0.1:8888'; $spider->on_fetch_url = function ($url, &$html, $spider) { $html = curl_request($url, false, false, $spider->proxy); return true; }; $spider->start();
在上述代码中,我们将代理IP设置为127.0.0.1:8888
Tapak web juga akan menilai kesahihan permintaan berdasarkan alamat IP. Untuk menangani situasi ini, kita boleh menggunakan IP proksi untuk menyembunyikan IP sebenar. Berikut ialah contoh kod untuk menggunakan IP proksi dalam phpSpider:
rrreee🎜 Dalam kod di atas, kami menetapkan IP proksi kepada127.0.0.1:8888
dan menghantarnya sebagai parameter apabila meminta halaman web. Dengan cara ini, tapak web tidak dapat mengenal pasti permintaan kami melalui alamat IP. 🎜🎜Ringkasnya, di atas adalah beberapa teknik PHP dan phpSpider untuk menangani strategi anti-merangkak laman web. Sudah tentu, ini hanyalah beberapa kaedah asas, dan strategi khusus mesti diselaraskan mengikut tapak web yang berbeza. Untuk dapat menjalankan program crawler secara normal, kita juga perlu terus belajar dan meneroka. Saya harap artikel ini dapat membantu semua orang! 🎜🎜Di atas adalah keseluruhan kandungan artikel ini, saya harap ia akan membantu anda! 🎜Atas ialah kandungan terperinci Cara menangani strategi anti-perangkak laman web: Petua untuk PHP dan phpSpider!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!