Dengan perkembangan Internet, teknologi perangkak telah memainkan peranan yang semakin penting dalam pengumpulan data moden, analisis data dan membuat keputusan perniagaan. Mempelajari cara menggunakan teknologi perangkak akan meningkatkan kecekapan dan ketepatan pemprosesan data kami. Dalam artikel ini, kami akan menggunakan PHP untuk menulis perangkak untuk merangkak maklumat kursus tentang MOOC.
Alat yang akan digunakan dalam artikel ini adalah seperti berikut:
1 Persediaan
Pertama, kita perlu cipta persekitaran setempat Pasang versi PHP 7.0, proses pemasangan ditinggalkan.
Klien HTTP Guzzle ialah perpustakaan alat klien HTTP yang biasa digunakan, kami boleh menggunakan Komposer untuk memasangnya. Tukar kepada direktori kosong dalam baris arahan, kemudian buat fail composer.json baharu, tambah kandungan berikut:
{
"require": { "guzzlehttp/guzzle": "^6.3" }
}
dan kemudian tambahkannya di tahap yang sama Laksanakan pemasangan komposer dalam direktori Selepas pelaksanaan selesai, kami telah berjaya memasang Pelanggan HTTP Guzzle.
2. Menganalisis struktur tapak web sasaran
Sebelum mula menulis kod, kita perlu menganalisis struktur tapak web sasaran. Kami memilih kursus Python di MOOC.com (www.imooc.com Maklumat yang kami perlukan termasuk nama kursus, nombor kursus, kesukaran kursus, tempoh kursus dan pautan kursus).
Selepas membuka tapak web sasaran dan melakukan operasi tertentu (seperti mencari kursus "Python"), kami boleh melihat kandungan respons yang dikembalikan oleh tapak web tersebut. Kami boleh menggunakan alat pembangunan penyemak imbas untuk melihat kandungan respons dan struktur halaman web.
Kita dapat melihat bahawa senarai kursus Python pada MOOC dimuatkan secara dinamik melalui AJAX. Untuk memudahkan merangkak data, kami boleh mencari terus URL dan parameter permintaan AJAX, dan kemudian membina permintaan HTTP kami sendiri untuk mendapatkan data.
Dengan melihat permintaan XHR tapak web sasaran, kami dapati bahawa URL yang diminta sebenar untuk kursus Python ialah http://www.imooc.com/course/AjaxCourseMore?&page=1.
Halaman dalam parameter permintaan menunjukkan nombor halaman yang sedang diakses. Kami boleh menghantar permintaan ke URL melalui kaedah HTTP GET dan menghuraikannya berdasarkan hasil yang dikembalikan.
3. Tulis program crawler
Dalam langkah sebelumnya kami telah memperoleh URL senarai kursus Python tapak web sasaran, kini kami hanya perlu menulis kod PHP, gunakan Pelanggan HTTP Guzzle untuk menghantar permintaan HTTP, dan kemudian menghuraikan Hanya kembalikan hasilnya.
Pertama, kami perlu memperkenalkan perpustakaan Pelanggan HTTP Guzzle. Tambahkan kod berikut di bahagian atas fail PHP:
memerlukan 'vendor/autoload.php';
Kemudian buat objek Pelanggan HTTP Guzzle:
$client = new GuzzleHttpClient( );
Seterusnya, kita boleh menggunakan objek ini untuk menghantar permintaan HTTP:
$response = $client->request('GET', 'http://www .imooc.com /course/AjaxCourseMore?&page=1');
Dalam kod di atas, kami menggunakan kaedah request() bagi objek Pelanggan HTTP Guzzle, menyatakan kaedah permintaan sebagai GET dan yang diminta URL ialah apa yang kami tentukan dalam langkah sebelumnya URL yang diperolehi.
Akhir sekali, kami perlu mendapatkan maklumat kursus yang kami perlukan daripada respons HTTP. Dengan memeriksa kandungan respons, kita dapat melihat bahawa maklumat kursus terkandung dalam teg HTML dengan atribut kelas kad-bekas kursus.
Kami boleh menggunakan kelas DOMDocument PHP untuk merentasi teg HTML dan menghuraikan teg yang memenuhi syarat.
Pelaksanaan kod akhir adalah seperti berikut:
memerlukan 'vendor/autoload.php';
gunakan GuzzleHttpClient;
$client = new Client( [
'base_uri' => 'http://www.imooc.com'
]);
$respons = $client->request('GET', '/course/AjaxCourseMore?&page=1');
jika ($respon->getStatusCode() == 200) {
$dom = new DOMDocument(); @$dom->loadHTML($response->getBody()); $xpath = new DOMXPath($dom); $items = $xpath->query("//div[@class='course-card-container']"); foreach ($items as $item) { $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent); $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card'], $item)->item(0)->getAttribute('href')); $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent); $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent); $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href')); // 将抓取到的数据存储到MySQL数据库中 // ... echo "课程名称:" . $courseName . "
";
echo "课程编号:" . $courseId . "
";
echo "课程难度:" . $courseDifficulty . "
";
echo "课程时长:" . $courseDuration . "
";
echo "课程链接:" . $courseLink . "
";
}
}
Kami menggunakan DOMDocument untuk membaca kandungan respons HTML, dan kemudian menggunakan DOMXPath untuk melintasi teg. Akhir sekali, kami mencetak maklumat yang ditangkap ke skrin.
4. Simpan data
Kini kami telah berjaya menangkap maklumat kursus Python dan mencetak maklumat ke skrin. Data tersebut perlu disimpan ke dalam pangkalan data
Dalam pangkalan data MySQL, kami mencipta jadual untuk menyimpan maklumat kursus Python Struktur jadual adalah seperti berikut:
BUAT JADUAL < . python_courses
varchar(255) NOT NULL DEFAULT '',id
varchar(255) NOT NULL DEFAULT '',course_name
varchar(255) NOT NULL DEFAULT '',course_id
KUNCI UTAMA (
)course_difficulty
) ENGINE=InnoDB DEFAULT CHARSET=utf8;course_duration
Dalam kod, kami menggunakan PDO untuk menyambung ke pangkalan data MySQL, dan menggunakan kaedah prepare() dan laksanakan( ) kaedah untuk melaksanakan operasi sisipan. Kod akhir adalah seperti berikut :course_link
memerlukan 'vendor/autoload.php';id
gunakan GuzzleHttpClient;
'base_uri' => 'http://www.imooc.com'
if ($response->getStatusCode() == 200) {
$dom = new DOMDocument(); @$dom->loadHTML($response->getBody()); $xpath = new DOMXPath($dom); $items = $xpath->query("//div[@class='course-card-container']"); $dsn = 'mysql:host=localhost;dbname=test'; $username = 'root'; $password = ''; $pdo = new PDO($dsn, $username, $password, [PDO::ATTR_ERRMODE => PDO::ERRMODE_EXCEPTION]); $stmt = $pdo->prepare("INSERT INTO `python_courses` (`course_name`, `course_id`, `course_difficulty`, `course_duration`, `course_link`) VALUES (:course_name, :course_id, :course_difficulty, :course_duration, :course_link)"); foreach ($items as $item) { $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent); $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card']", $item)->item(0)->getAttribute('href')); $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent); $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent); $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href')); $stmt->bindParam(':course_name', $courseName); $stmt->bindParam(':course_id', $courseId); $stmt->bindParam(':course_difficulty', $courseDifficulty); $stmt->bindParam(':course_duration', $courseDuration); $stmt->bindParam(':course_link', $courseLink); $stmt->execute(); }
}
现在,我们已经成功的构建了一个简单的PHP爬虫,用于抓取慕课网上的Python课程信息。经过这个例子的介绍,你应该可以使用PHP编写你自己的爬虫程序,并获取到你需要的数据了。
Atas ialah kandungan terperinci Latihan perangkak PHP: maklumat kursus MOOC merangkak. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!