Tapak web statik: Axios dan Cheerio
Mari jalani merangkak tapak web eCommerce statik menggunakan JavaScript. Untuk contoh ini, kami akan menggunakan dua perpustakaan popular: Axios untuk permintaan HTTP dan Cheerio untuk menghuraikan HTML.
*1. Pasang kebergantungan *
Pasang Axios dan Cheerio dengan npm:
npm pasang axios cheerio
*2. Cipta skrip *
Buat fail JavaScript, mis. B. scrapeEcommerce.js dan bukanya dalam editor kod anda.
*3. Import modul *
Import Axios dan Cheerio ke dalam skrip anda:
const axios = memerlukan('axios');
const cheerio = memerlukan('cheerio');
*4. Tentukan URL sasaran *
Pilih tapak web eCommerce yang ingin anda akses. Dalam contoh ini kami menggunakan URL hipotesis http://example-ecommerce.com. Gantikan ini dengan URL yang dikehendaki:
url const = 'http://example-ecommerce.com';
*5. Dapatkan kandungan HTML *
Gunakan Axios untuk menghantar permintaan GET ke URL sasaran dan dapatkan kandungan HTML:
axios.get(url)
.then(respon => {
const html = respons.data;
// Kandungan HTML kini boleh dihuraikan
})
.catch(error => {
console.error('Ralat mengambil halaman:', ralat);
});
*6. Menghuraikan HTML dan mengekstrak data *
Gunakan Cheerio untuk menghuraikan kod HTML dan mengekstrak maklumat yang anda inginkan, seperti nama produk dan harga:
axios.get(url)
.then(respon => {
const html = respons.data;
const $ = cheerio.load(html);
const products = []; $('.product').each((index, element) => { const name = $(element).find('.product-name').text().trim(); const price = $(element).find('.product-price').text().trim(); products.push({ name, price }); }); console.log(products);
})
.catch(error => {
console.error('Ralat mengambil halaman:', ralat);
});
*Mata yang paling penting *
*Skrip contoh penuh: *
const axios = memerlukan('axios');
const cheerio = memerlukan('cheerio');
url const = 'http://example-ecommerce.com';
axios.get(url)
.then(respon => {
const html = respons.data;
const $ = cheerio.load(html);
const products = []; $('.product').each((index, element) => { const name = $(element).find('.product-name').text().trim(); const price = $(element).find('.product-price').text().trim(); products.push({ name, price }); }); console.log(products);
})
.catch(error => {
console.error('Ralat mengambil halaman:', ralat);
});
*Penyesuaian untuk halaman pendaratan anda: *
Jika baru-baru ini anda memerlukan Python, Ruby atau bahasa pengaturcaraan lain untuk mengikis web, Octoparse ialah alat yang sangat baik, terutamanya untuk tapak web dengan sokongan JavaScript.
Mari kita ambil contoh konkrit: Jika anda mempunyai tapak web sasaran dan ingin mula mengikis, anda harus terlebih dahulu menyemak sama ada tapak tersebut disekat terhadap pengikisan JS. Tapak web yang berbeza menggunakan kaedah perlindungan yang berbeza, dan mungkin mengambil sedikit masa dan percubaan yang mengecewakan sebelum anda menyedari bahawa ada sesuatu yang tidak kena, terutamanya jika mengikis tidak menghasilkan hasil yang diingini. Walau bagaimanapun, dengan alat pengikis web, proses pengekstrakan data berjalan lancar.
Banyak alat pengikis web menyelamatkan anda daripada perangkak menulis. Octoparse sangat cekap dalam mengikis halaman JavaScript-berat dan boleh mengekstrak data daripada 99% halaman web, termasuk yang menggunakan Ajax. Ia juga menawarkan perkhidmatan penyelesaian Captcha. Octoparse adalah percuma untuk digunakan dan menawarkan ciri auto-penemuan dan lebih 100 templat yang mudah digunakan yang membolehkan pengekstrakan data yang cekap. Pengguna baharu juga boleh memanfaatkan percubaan selama 14 hari.
Atas ialah kandungan terperinci Mengikis tapak web JavaScript dengan cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!