Dengan perkembangan teknologi Internet, rangkak data semakin menjadi kemahiran prasyarat penting dalam bidang seperti analisis data dan pembelajaran mesin. Antaranya, teknologi crawler adalah lebih diperlukan. Sebagai bahasa pengaturcaraan bahagian belakang yang digunakan secara meluas, PHP juga mempunyai aplikasi dan kelebihan yang luas dalam medan perangkak. Artikel ini akan mengambil data siaran langsung merangkak Douyu sebagai contoh untuk memperkenalkan aplikasi praktikal perangkak PHP.
Sebelum memulakan crawler, kita perlu melakukan beberapa kerja penyediaan. Pertama, anda perlu membina persekitaran pelayan setempat Adalah disyorkan untuk menggunakan alat bersepadu seperti WAMP dan XAMPP untuk memudahkan penggunaan persekitaran PHP.
Kedua, kami perlu memasang perpustakaan dan alatan berkaitan PHP, termasuk cURL, simple_html_dom dan komponen lain. cURL ialah perpustakaan pemindahan data rangkaian peringkat tinggi yang boleh digunakan untuk operasi seperti permintaan HTTP. simple_html_dom ialah perpustakaan untuk menghuraikan HTML, yang boleh membantu kami mengekstrak pelbagai maklumat daripada halaman web dengan cepat dan mudah.
Seterusnya, kita boleh mula menulis kod perangkak. Mengambil rangkak data siaran langsung Douyu sebagai contoh, kami perlu menjelaskan halaman web sasaran dan data yang hendak dirangkak terlebih dahulu. Dalam artikel ini, kami akan mengambil halaman utama Douyu sebagai contoh untuk mendapatkan maklumat tentang beberapa bilik siaran langsung yang popular, termasuk nama bilik siaran langsung, nama utama, bilangan penonton, pautan bilik siaran langsung, dsb.
Berikut ialah rangka kerja kod perangkak asas:
<?php // 1. 导入 simple_html_dom 库 require 'simple_html_dom.php'; // 2. 指定爬虫目标网页 URL $url = 'https://www.douyu.com/'; // 3. 使用 cURL 发起 HTTP 请求,并获取响应结果 $ch = curl_init(); curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); // 设置返回结果为字符串 $response = curl_exec($ch); // 4. 解析 HTML,并提取目标信息 $html = new simple_html_dom(); $html->load($response); // TODO: 提取目标信息 // 5. 清理资源 $html->clear(); curl_close($ch); ?>
Antaranya, langkah pertama ialah mengimport perpustakaan simple_html_dom, langkah kedua ialah menentukan URL halaman web sasaran perangkak dan langkah ketiga ialah menggunakan cURL untuk memulakan permintaan HTTP dan mendapatkan Balas kepada keputusan dan bersihkan sumber dalam langkah 5. Langkah-langkah ini agak asas dan tidak akan diterangkan secara terperinci di sini.
Langkah utama ialah langkah 4, iaitu menghuraikan HTML dan mengekstrak maklumat sasaran. Pada halaman utama Douyu, maklumat tentang bilik siaran langsung popular terkandung dalam elemen div dengan nama kelas DyListCover-info
Kemudian kita boleh menapis elemen div ini melalui kaedah find()
yang disediakan oleh perpustakaan simple_html_dom, dan kemudian mengekstrak maklumat. di dalamnya.
Kod khusus adalah seperti berikut:
// 4. 解析 HTML,并提取目标信息 $hot_list = []; foreach ($html->find('.DyListCover-info') as $item) { $hot = []; $hot['title'] = $item->find('.DyListCover-intro', 0)->plaintext; // 直播间名称 $hot['anchor'] = $item->find('.DyListCover-user', 0)->plaintext; // 主播名 $hot['viewer'] = $item->find('.DyListCover-hot', 0)->plaintext; // 观看人数 $hot['url'] = $item->find('a', 0)->href; // 直播间链接 array_push($hot_list, $hot); } echo json_encode($hot_list);
Dalam kod di atas, kami memperoleh semua elemen div yang mengandungi maklumat bilik siaran langsung popular melalui pemilih $html->find('.DyListCover-info')
, dan kemudian mengekstrak sasaran lagi melalui maklumat elemen anak mereka. Ambil perhatian bahawa tatasusunan PHP digunakan di sini untuk menyimpan data yang diekstrak, dan ia ditukar kepada format JSON dan output ke terminal melalui kaedah json_encode()
.
Artikel ini memperkenalkan aplikasi praktikal perangkak PHP Mengambil data penyiaran langsung Douyu sebagai contoh, proses aplikasi asas perangkak PHP diterangkan secara terperinci . Dalam amalan, kami boleh terus mengembangkan dan mengoptimumkan kod perangkak mengikut keperluan khusus, seperti menggunakan PHP multi-threading, pengaturcaraan tak segerak dan teknologi lain untuk meningkatkan lagi kecekapan dan kestabilan, atau menyimpan data yang dirangkak dalam pangkalan data atau platform awan untuk pemprosesan Analisis dan aplikasi yang lebih mendalam.
Atas ialah kandungan terperinci Amalan perangkak PHP: merangkak data siaran langsung Douyu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!