Dengan perkembangan pesat Internet, era ledakan maklumat telah tiba. Dalam era seperti ini, enjin carian telah menjadi alat utama kami untuk mendapatkan maklumat, dan sejumlah besar data yang disediakan oleh enjin carian ini adalah di luar imaginasi kami. Walau bagaimanapun, bagi penyelidik atau penganalisis data dalam beberapa bidang tertentu, maklumat yang mereka perlukan mungkin hanya sebahagian kecil daripada data dalam hasil carian ini. Dalam kes ini, kita perlu menggunakan perangkak untuk mendapatkan data yang kita inginkan dengan tepat.
Dalam artikel ini, kami akan menggunakan PHP untuk menulis program perangkak mudah untuk mengekstrak data yang kami perlukan daripada hasil carian Baidu. Teras program ini adalah menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP, dan kemudian menggunakan ungkapan biasa dan kaedah lain untuk menghuraikan halaman HTML.
Sebelum kami mula menulis program perangkak, kami perlu menjelaskan beberapa soalan:
Apabila mempertimbangkan data yang perlu kita perolehi, mari kita ambil kata kunci "perakak PHP" sebagai contoh. Jika kita mencari kata kunci ini di Baidu, kita boleh melihat maklumat berikut:
Kemudian, kami boleh menentukan matlamat kami sebagai mengekstrak tajuk setiap hasil carian daripada hasil carian Baidu, Penerangan dan URL.
Langkah pertama untuk mendapatkan data adalah untuk menjelaskan URL yang ingin kami perolehi. Dalam kes kami, URL yang perlu kami dapatkan ialah ini: https://www.baidu.com/s?wd=php%20爬虫
. Dengan menaip "crawler php" ke dalam bar carian Baidu, kami boleh melompat ke URL ini secara automatik.
Seterusnya, kita perlu memahami format data yang akan kita huraikan. Dalam kes kami, hasil carian wujud dalam bentuk kod HTML seperti berikut:
<div class="result c-container "> <h3 class="t"> <a href="http://www.example.com/" target="_blank" class="c-showurl"> www.example.com </a> <em>PHP</em> 爬虫是什么? - PHP 入门教程 - 极客学院 </h3> <div class="c-abstract"> <span class=" newTimeFactor_before_abs">2天前 - </span> <em>PHP</em> 爬虫是一种方便快捷的数据采集方式 ... 目前的爬虫主要是通过<a href="https://www.baidu.com/s?wd=python%20爬虫&rsp=1&f=8&ie=utf-8&tn=95754739_hao_pg" target="_blank" class="text-underline">python 爬虫</a>实现。相比于 <a href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_nsisbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt&wd=&eqid=f774f5d00003a46c000000065f51fc9a" target="_blank" class="text-underline">PHP</a>,<a href="https://www.baidu.com/link?url=zdiwLoE_LR5bzae8ifgYsYXBfvatKGD0D6Yjli9c8_ns isbDmnS-r8l7g-5G2NI79x6yO8NnDdnLqhNuqOZtedHjiOZbhsDNwkFx3pW6yBt& wd=&eqid=f774f5d00003a46c000000065f51fc9a" target="_blank" class="text-underline">PHP</a> 一般用作... </div> </div>
Dalam coretan kod HTML di atas, anda boleh melihat bahawa setiap hasil carian bersarang dalam teg <div class="result c-container ">
. Setiap hasil carian mempunyai tajuk, yang sepadan dengan format HTML <h3 class="t">
, dengan alamat pautan bersarang dalam teg <a>
. Setiap hasil carian mempunyai penerangan, sepadan dengan format HTML <div class="c-abstract">
. Setiap hasil carian juga mempunyai URL yang mengandungi <a>
di dalam teg class="c-showurl"
.
Sekarang kami telah menjelaskan format data yang ingin kami peroleh dan format data HTML yang perlu kami huraikan, kami boleh mula menulis program perangkak kami.
Kami membahagikan kod perangkak PHP kami kepada tiga langkah:
Kami boleh menggunakan perpustakaan cURL PHP untuk menghantar permintaan HTTP, Untuk mendapatkan halaman HTML hasil carian Baidu. Dalam contoh ini, kami menyimpan URL halaman carian dalam pembolehubah $url
. Kemudian buat pemegang untuk cURL dan tetapkan banyak pilihan, seperti: tetapkan URL, tetapkan pengepala permintaan, tetapkan proksi, tetapkan tamat masa, tetapkan kaedah permintaan kepada GET, dan akhirnya laksanakan pemegang ini untuk mendapatkan halaman HTML.
<?php $url = "https://www.baidu.com/s?wd=php%20爬虫"; // 创建curl句柄 $ch = curl_init(); // 设置curl选项 curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate'); curl_setopt($ch, CURLOPT_HEADER, true); curl_setopt( $ch, CURLOPT_HTTPHEADER, [ 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 'Referer: https://www.baidu.com/', 'Connection: keep-alive', ] ); curl_setopt($ch, CURLOPT_TIMEOUT, 30); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET"); //执行curl句柄 $result = curl_exec($ch);
Dalam contoh ini kami menggunakan banyak pilihan yang disediakan oleh perpustakaan cURL. Contohnya, tetapkan pengepala permintaan untuk mensimulasikan permintaan HTTP yang dihantar oleh penyemak imbas, tetapkan kaedah permintaan kepada GET, tetapkan tamat masa, dsb.
Selepas mendapat halaman HTML hasil carian Baidu, kami perlu menghuraikannya untuk mendapatkan maklumat yang kami perlukan. Dalam contoh ini, kami akan menggunakan ungkapan biasa PHP untuk menghuraikan halaman HTML.
Berikut ialah ungkapan biasa yang kami gunakan untuk mengekstrak tajuk, penerangan dan pautan daripada halaman HTML:
<?php $result = curl_exec($ch); // 匹配所有搜索结果 preg_match_all( '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/', $result, $matches ); // 提取搜索结果中的标题、描述和链接 $data = []; for ($i=0; $i<count($matches[0]); $i++) { $data[] = [ 'title' => strip_tags($matches[2][$i]), // 去除标题中的 HTML 标签 'description' => strip_tags($matches[3][$i]), // 去除描述中的 HTML 标签 'link' => $matches[1][$i] ]; }; // 关闭curl句柄 curl_close($ch);
Dalam kod di atas, kami menggunakan ungkapan biasa PHP untuk memadankan semua hasil carian. Kami kemudian menggunakan gelung untuk menyemak semua hasil carian dan mengekstrak tajuk, penerangan dan pautan yang kami perlukan. Memandangkan tajuk dan penerangan yang kami dapat daripada HTML akan mengandungi teg HTML, kami menggunakan fungsi strip_tags
untuk mengalih keluarnya.
Dalam kod di atas, kami telah memperoleh data yang kami perlukan, dan kini kami hanya perlu mengembalikan hasilnya dalam bentuk tatasusunan. Kami merangkum keseluruhan program perangkak kami ke dalam fungsi dan mengembalikan data yang diperoleh dalam bentuk tatasusunan:
<?php function spider_baidu($keyword) { $url = "https://www.baidu.com/s?wd=" . urlencode($keyword); $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); curl_setopt($ch, CURLOPT_ENCODING, 'gzip,deflate'); curl_setopt($ch, CURLOPT_HEADER, true); curl_setopt( $ch, CURLOPT_HTTPHEADER, [ 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36', 'Referer: https://www.baidu.com/', 'Connection: keep-alive', ] ); curl_setopt($ch, CURLOPT_TIMEOUT, 30); curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($ch, CURLOPT_CUSTOMREQUEST, "GET"); $result = curl_exec($ch); preg_match_all( '/<div.*?class="result.*?">.*?<h3.*?>.*?<a.*?href="(.*?)".*?>s*(.*?)s*</a>.*?</h3>.*?<div.*?class="c-abstract.*?">(.*?)</div>.*?</div>/', $result, $matches ); $data = []; for ($i=0; $i<count($matches[0]); $i++) { $data[] = [ 'title' => strip_tags($matches[2][$i]), 'description' => strip_tags($matches[3][$i]), 'link' => $matches[1][$i] ]; }; curl_close($ch); return $data; }
Kami boleh menerima kata kunci sebagai parameter, dan kemudian memanggil fungsi ini untuk mendapatkan kata kunci dalam Tajuk, penerangan dan pautan dalam hasil carian Baidu.
Dalam artikel ini, kami menulis program perangkak mudah menggunakan PHP untuk mengekstrak data yang diperlukan daripada hasil carian Baidu. Program ini menggunakan perpustakaan cURL PHP untuk mensimulasikan permintaan HTTP dan menggunakan kaedah seperti ungkapan biasa untuk menghuraikan halaman HTML. Melalui contoh ini, kita boleh memperoleh pemahaman yang mendalam tentang cara perangkak berfungsi dan cara menulis perangkak menggunakan PHP. Dalam projek sebenar, kami boleh mengubah suai program ini mengikut keperluan kami untuk mendapatkan data yang kami perlukan.
Atas ialah kandungan terperinci Amalan perangkak PHP: ekstrak data yang diperlukan daripada hasil carian Baidu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!