Rumah pembangunan bahagian belakang tutorial php Latihan perangkak PHP: maklumat kursus MOOC merangkak

Latihan perangkak PHP: maklumat kursus MOOC merangkak

Jun 13, 2023 am 11:35 AM
php reptilia Maklumat kursus

Dengan perkembangan Internet, teknologi perangkak telah memainkan peranan yang semakin penting dalam pengumpulan data moden, analisis data dan membuat keputusan perniagaan. Mempelajari cara menggunakan teknologi perangkak akan meningkatkan kecekapan dan ketepatan pemprosesan data kami. Dalam artikel ini, kami akan menggunakan PHP untuk menulis perangkak untuk merangkak maklumat kursus tentang MOOC.

Alat yang akan digunakan dalam artikel ini adalah seperti berikut:

  • Bahasa pengaturcaraan PHP, versi ialah PHP 7.0
  • Perpustakaan pihak ketiga Pelanggan HTTP Guzzle, digunakan untuk menghantar permintaan HTTP dan menerima respons HTTP
  • Pangkalan data MySQL yang mudah digunakan untuk menyimpan maklumat kursus yang kami rangkak

1 Persediaan

Pertama, kita perlu cipta persekitaran setempat Pasang versi PHP 7.0, proses pemasangan ditinggalkan.

Klien HTTP Guzzle ialah perpustakaan alat klien HTTP yang biasa digunakan, kami boleh menggunakan Komposer untuk memasangnya. Tukar kepada direktori kosong dalam baris arahan, kemudian buat fail composer.json baharu, tambah kandungan berikut:

{

"require": {
    "guzzlehttp/guzzle": "^6.3"
}
Salin selepas log masuk

}

dan kemudian tambahkannya di tahap yang sama Laksanakan pemasangan komposer dalam direktori Selepas pelaksanaan selesai, kami telah berjaya memasang Pelanggan HTTP Guzzle.

2. Menganalisis struktur tapak web sasaran

Sebelum mula menulis kod, kita perlu menganalisis struktur tapak web sasaran. Kami memilih kursus Python di MOOC.com (www.imooc.com Maklumat yang kami perlukan termasuk nama kursus, nombor kursus, kesukaran kursus, tempoh kursus dan pautan kursus).

Selepas membuka tapak web sasaran dan melakukan operasi tertentu (seperti mencari kursus "Python"), kami boleh melihat kandungan respons yang dikembalikan oleh tapak web tersebut. Kami boleh menggunakan alat pembangunan penyemak imbas untuk melihat kandungan respons dan struktur halaman web.

Kita dapat melihat bahawa senarai kursus Python pada MOOC dimuatkan secara dinamik melalui AJAX. Untuk memudahkan merangkak data, kami boleh mencari terus URL dan parameter permintaan AJAX, dan kemudian membina permintaan HTTP kami sendiri untuk mendapatkan data.

Dengan melihat permintaan XHR tapak web sasaran, kami dapati bahawa URL yang diminta sebenar untuk kursus Python ialah http://www.imooc.com/course/AjaxCourseMore?&page=1.

Halaman dalam parameter permintaan menunjukkan nombor halaman yang sedang diakses. Kami boleh menghantar permintaan ke URL melalui kaedah HTTP GET dan menghuraikannya berdasarkan hasil yang dikembalikan.

3. Tulis program crawler

Dalam langkah sebelumnya kami telah memperoleh URL senarai kursus Python tapak web sasaran, kini kami hanya perlu menulis kod PHP, gunakan Pelanggan HTTP Guzzle untuk menghantar permintaan HTTP, dan kemudian menghuraikan Hanya kembalikan hasilnya.

Pertama, kami perlu memperkenalkan perpustakaan Pelanggan HTTP Guzzle. Tambahkan kod berikut di bahagian atas fail PHP:

memerlukan 'vendor/autoload.php';

Kemudian buat objek Pelanggan HTTP Guzzle:

$client = new GuzzleHttpClient( );

Seterusnya, kita boleh menggunakan objek ini untuk menghantar permintaan HTTP:

$response = $client->request('GET', 'http://www .imooc.com /course/AjaxCourseMore?&page=1');

Dalam kod di atas, kami menggunakan kaedah request() bagi objek Pelanggan HTTP Guzzle, menyatakan kaedah permintaan sebagai GET dan yang diminta URL ialah apa yang kami tentukan dalam langkah sebelumnya URL yang diperolehi.

Akhir sekali, kami perlu mendapatkan maklumat kursus yang kami perlukan daripada respons HTTP. Dengan memeriksa kandungan respons, kita dapat melihat bahawa maklumat kursus terkandung dalam teg HTML dengan atribut kelas kad-bekas kursus.

Kami boleh menggunakan kelas DOMDocument PHP untuk merentasi teg HTML dan menghuraikan teg yang memenuhi syarat.

Pelaksanaan kod akhir adalah seperti berikut:

memerlukan 'vendor/autoload.php';

gunakan GuzzleHttpClient;

$client = new Client( [

'base_uri' => 'http://www.imooc.com'
Salin selepas log masuk
Salin selepas log masuk

]);

$respons = $client->request('GET', '/course/AjaxCourseMore?&page=1');

jika ($respon->getStatusCode() == 200) {

$dom = new DOMDocument();
@$dom->loadHTML($response->getBody());

$xpath = new DOMXPath($dom);

$items = $xpath->query("//div[@class='course-card-container']");

foreach ($items as $item) {
    $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent);
    $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card'], $item)->item(0)->getAttribute('href'));
    $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent);
    $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent);
    $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href'));

    // 将抓取到的数据存储到MySQL数据库中
    // ...

    echo "课程名称:" . $courseName . "
Salin selepas log masuk

";

    echo "课程编号:" . $courseId . "
Salin selepas log masuk

";

    echo "课程难度:" . $courseDifficulty . "
Salin selepas log masuk

";

    echo "课程时长:" . $courseDuration . "
Salin selepas log masuk

";

    echo "课程链接:" . $courseLink . "
Salin selepas log masuk

";

}
Salin selepas log masuk

}

Kami menggunakan DOMDocument untuk membaca kandungan respons HTML, dan kemudian menggunakan DOMXPath untuk melintasi teg. Akhir sekali, kami mencetak maklumat yang ditangkap ke skrin.

4. Simpan data

Kini kami telah berjaya menangkap maklumat kursus Python dan mencetak maklumat ke skrin. Data tersebut perlu disimpan ke dalam pangkalan data

Dalam pangkalan data MySQL, kami mencipta jadual untuk menyimpan maklumat kursus Python Struktur jadual adalah seperti berikut:

BUAT JADUAL < . python_courses
varchar(255) NOT NULL DEFAULT '',id
varchar(255) NOT NULL DEFAULT '',course_name
varchar(255) NOT NULL DEFAULT '',course_id KUNCI UTAMA (
)course_difficulty) ENGINE=InnoDB DEFAULT CHARSET=utf8;
course_durationDalam kod, kami menggunakan PDO untuk menyambung ke pangkalan data MySQL, dan menggunakan kaedah prepare() dan laksanakan( ) kaedah untuk melaksanakan operasi sisipan. Kod akhir adalah seperti berikut :
course_linkmemerlukan 'vendor/autoload.php';
idgunakan GuzzleHttpClient;

$client = new. Pelanggan([

'base_uri' => 'http://www.imooc.com'
Salin selepas log masuk
Salin selepas log masuk

]);

$respons = $client->request('GET', '/course/AjaxCourseMore?&page=1');

if ($response->getStatusCode() == 200) {

$dom = new DOMDocument();
@$dom->loadHTML($response->getBody());

$xpath = new DOMXPath($dom);

$items = $xpath->query("//div[@class='course-card-container']");

$dsn = 'mysql:host=localhost;dbname=test';
$username = 'root';
$password = '';
$pdo = new PDO($dsn, $username, $password, [PDO::ATTR_ERRMODE => PDO::ERRMODE_EXCEPTION]);

$stmt = $pdo->prepare("INSERT INTO `python_courses` (`course_name`, `course_id`, `course_difficulty`, `course_duration`, `course_link`) VALUES (:course_name, :course_id, :course_difficulty, :course_duration, :course_link)");
foreach ($items as $item) {
    $courseName = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->textContent);
    $courseId = trim($xpath->query(".//div[@class='clearfix']/a[@class='course-card']", $item)->item(0)->getAttribute('href'));
    $courseDifficulty = trim($xpath->query(".//p[@class='course-card-desc']", $item)->item(0)->textContent);
    $courseDuration = trim($xpath->query(".//div[@class='course-card-info']/span[@class='course-card-time']", $item)->item(0)->textContent);
    $courseLink = trim($xpath->query(".//h3[@class='course-card-name']/a", $item)->item(0)->getAttribute('href'));

    $stmt->bindParam(':course_name', $courseName);
    $stmt->bindParam(':course_id', $courseId);
    $stmt->bindParam(':course_difficulty', $courseDifficulty);
    $stmt->bindParam(':course_duration', $courseDuration);
    $stmt->bindParam(':course_link', $courseLink);
    $stmt->execute();
}
Salin selepas log masuk

}

现在,我们已经成功的构建了一个简单的PHP爬虫,用于抓取慕课网上的Python课程信息。经过这个例子的介绍,你应该可以使用PHP编写你自己的爬虫程序,并获取到你需要的数据了。

Atas ialah kandungan terperinci Latihan perangkak PHP: maklumat kursus MOOC merangkak. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 membawa beberapa ciri baharu, peningkatan keselamatan dan peningkatan prestasi dengan jumlah penamatan dan penyingkiran ciri yang sihat. Panduan ini menerangkan cara memasang PHP 8.4 atau naik taraf kepada PHP 8.4 pada Ubuntu, Debian, atau terbitan mereka

Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Dec 20, 2024 am 11:31 AM

Kod Visual Studio, juga dikenali sebagai Kod VS, ialah editor kod sumber percuma — atau persekitaran pembangunan bersepadu (IDE) — tersedia untuk semua sistem pengendalian utama. Dengan koleksi sambungan yang besar untuk banyak bahasa pengaturcaraan, Kod VS boleh menjadi c

Bagaimana anda menghuraikan dan memproses HTML/XML dalam PHP? Bagaimana anda menghuraikan dan memproses HTML/XML dalam PHP? Feb 07, 2025 am 11:57 AM

Tutorial ini menunjukkan cara memproses dokumen XML dengan cekap menggunakan PHP. XML (bahasa markup extensible) adalah bahasa markup berasaskan teks yang serba boleh yang direka untuk pembacaan manusia dan parsing mesin. Ia biasanya digunakan untuk penyimpanan data

Program PHP untuk mengira vokal dalam rentetan Program PHP untuk mengira vokal dalam rentetan Feb 07, 2025 pm 12:12 PM

Rentetan adalah urutan aksara, termasuk huruf, nombor, dan simbol. Tutorial ini akan mempelajari cara mengira bilangan vokal dalam rentetan yang diberikan dalam PHP menggunakan kaedah yang berbeza. Vokal dalam bahasa Inggeris adalah a, e, i, o, u, dan mereka boleh menjadi huruf besar atau huruf kecil. Apa itu vokal? Vokal adalah watak abjad yang mewakili sebutan tertentu. Terdapat lima vokal dalam bahasa Inggeris, termasuk huruf besar dan huruf kecil: a, e, i, o, u Contoh 1 Input: String = "TutorialSpoint" Output: 6 menjelaskan Vokal dalam rentetan "TutorialSpoint" adalah u, o, i, a, o, i. Terdapat 6 yuan sebanyak 6

Jelaskan JSON Web Tokens (JWT) dan kes penggunaannya dalam PHP API. Jelaskan JSON Web Tokens (JWT) dan kes penggunaannya dalam PHP API. Apr 05, 2025 am 12:04 AM

JWT adalah standard terbuka berdasarkan JSON, yang digunakan untuk menghantar maklumat secara selamat antara pihak, terutamanya untuk pengesahan identiti dan pertukaran maklumat. 1. JWT terdiri daripada tiga bahagian: header, muatan dan tandatangan. 2. Prinsip kerja JWT termasuk tiga langkah: menjana JWT, mengesahkan JWT dan muatan parsing. 3. Apabila menggunakan JWT untuk pengesahan di PHP, JWT boleh dijana dan disahkan, dan peranan pengguna dan maklumat kebenaran boleh dimasukkan dalam penggunaan lanjutan. 4. Kesilapan umum termasuk kegagalan pengesahan tandatangan, tamat tempoh, dan muatan besar. Kemahiran penyahpepijatan termasuk menggunakan alat debugging dan pembalakan. 5. Pengoptimuman prestasi dan amalan terbaik termasuk menggunakan algoritma tandatangan yang sesuai, menetapkan tempoh kesahihan dengan munasabah,

7 Fungsi PHP Saya Menyesal Saya Tidak Tahu Sebelum ini 7 Fungsi PHP Saya Menyesal Saya Tidak Tahu Sebelum ini Nov 13, 2024 am 09:42 AM

Jika anda seorang pembangun PHP yang berpengalaman, anda mungkin merasakan bahawa anda telah berada di sana dan telah melakukannya. Anda telah membangunkan sejumlah besar aplikasi, menyahpenyahpepijat berjuta-juta baris kod dan mengubah suai sekumpulan skrip untuk mencapai op

Terangkan pengikatan statik lewat dalam php (statik: :). Terangkan pengikatan statik lewat dalam php (statik: :). Apr 03, 2025 am 12:04 AM

Mengikat statik (statik: :) Melaksanakan pengikatan statik lewat (LSB) dalam PHP, yang membolehkan kelas panggilan dirujuk dalam konteks statik dan bukannya menentukan kelas. 1) Proses parsing dilakukan pada masa runtime, 2) Cari kelas panggilan dalam hubungan warisan, 3) ia boleh membawa overhead prestasi.

Apakah kaedah Magic PHP (__construct, __destruct, __call, __get, __set, dll) dan menyediakan kes penggunaan? Apakah kaedah Magic PHP (__construct, __destruct, __call, __get, __set, dll) dan menyediakan kes penggunaan? Apr 03, 2025 am 12:03 AM

Apakah kaedah sihir PHP? Kaedah sihir PHP termasuk: 1. \ _ \ _ Membina, digunakan untuk memulakan objek; 2. \ _ \ _ Destruct, digunakan untuk membersihkan sumber; 3. \ _ \ _ Call, mengendalikan panggilan kaedah yang tidak wujud; 4. \ _ \ _ Mendapatkan, melaksanakan akses atribut dinamik; 5. \ _ \ _ Set, melaksanakan tetapan atribut dinamik. Kaedah ini secara automatik dipanggil dalam situasi tertentu, meningkatkan fleksibiliti dan kecekapan kod.

See all articles