Dengan perkembangan Internet, maklumat di Internet semakin banyak, tetapi bukan mudah untuk mendapatkan maklumat berharga di Internet. Bagi sesetengah aplikasi yang perlu mendapatkan maklumat halaman web, perangkak web telah menjadi salah satu alat yang sangat diperlukan. Dalam teknologi perangkak web, PHP juga telah menjadi bahasa yang digunakan secara meluas.
Artikel ini akan menumpukan pada cara menggunakan protokol HTTP dan HTTPS untuk merangkak maklumat web.
1. Protokol HTTP
HTTP ialah Hypertext Transfer Protocol, iaitu protokol lapisan aplikasi yang digunakan untuk menghantar dokumen hipermedia. Biasanya digunakan di World Wide Web, fungsi utamanya ialah komunikasi antara klien dan pelayan berdasarkan protokol TCP. Oleh kerana kesederhanaan dan kelajuannya, ia telah menjadi bahagian yang sangat diperlukan dalam aplikasi berkaitan perangkak web.
Dalam PHP, anda boleh menggunakan sambungan cURL untuk merangkak protokol HTTP. Mengambil permintaan HTTP GET sebagai contoh, berikut ialah kod sampel mudah:
$url = 'http://example.com'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); $output = curl_exec($ch); curl_close($ch); echo $output;
Seperti yang ditunjukkan di atas, mula-mula tentukan alamat URL yang perlu mendapatkan maklumat, kemudian mulakan pemegang cURL dan tetapkan pilihan yang berkaitan. Antaranya, pilihan CURLOPT_URL menunjukkan alamat URL yang perlu diakses dan pilihan CURLOPT_RETURNTRANSFER menunjukkan bahawa hasil respons dikembalikan dan bukannya output. Akhirnya, selepas pelaksanaan selesai, pemegang cURL ditutup dan keputusan yang diperolehi adalah output.
Selain itu, semasa merangkak protokol HTTP, anda perlu memberi perhatian kepada perkara berikut:
curl_setopt($ch, CURLOPT_TIMEOUT, 10); // 设置超时时间为10秒
curl_setopt($ch, CURLOPT_COOKIE, 'key=value'); // 设置cookie curl_setopt($ch, CURLOPT_HTTPHEADER, array('Content-Type: application/json')); // 设置请求头
2. Protokol HTTPS
HTTPS ialah protokol yang melaksanakan penghantaran selamat HTTP melalui protokol SSL/TLS, yang boleh memastikan keselamatan dan integriti proses penghantaran data. Berbanding dengan protokol HTTP, protokol HTTPS boleh menghalang serangan berniat jahat dan aktiviti pengintipan. Apabila merangkak halaman web, menggunakan protokol HTTPS juga boleh menjadikan penghantaran data lebih selamat.
Dalam PHP, anda juga boleh menggunakan sambungan cURL untuk merangkak protokol HTTPS. Berikut ialah kod sampel mudah:
$url = 'https://example.com'; $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0); // 关闭SSL证书校验 curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, 0); // 关闭SSL证书校验 $output = curl_exec($ch); curl_close($ch); echo $output;
Perlu diambil perhatian bahawa dalam merangkak protokol HTTPS, pilihan CURLOPT_SSL_VERIFYHOST dan CURLOPT_SSL_VERIFYPEER perlu ditetapkan kepada 0 untuk mematikan pengesahan sijil SSL. Jika anda tidak mematikan pengesahan sijil SSL, cURL tidak akan dapat mengecam sijil semasa menyambung, menyebabkan permintaan gagal.
Selain itu, apabila merangkak melalui protokol HTTPS, anda juga perlu memberi perhatian kepada perkara berikut:
curl_setopt($ch, CURLOPT_SSLCERT, '/path/to/client/cert'); // 设置客户端证书路径 curl_setopt($ch, CURLOPT_SSLKEY, '/path/to/client/key'); // 设置客户端证书的key路径
3. Ringkasan
Di atas ialah kaedah dan langkah berjaga-jaga untuk menggunakan protokol HTTP dan HTTPS untuk merangkak maklumat halaman web. Sama ada HTTP atau HTTPS, ia adalah protokol penting dalam teknologi perangkak web. Melalui penggunaan sambungan cURL, kami boleh merangkak dengan mudah semua jenis maklumat di Internet, menjadikan aplikasi kami lebih kaya dan berkuasa.
Atas ialah kandungan terperinci Perangkak web PHP: cara menggunakan protokol HTTP dan HTTPS. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!