Rumah Java javaTutorial Mengikis tapak web JavaScript dengan cekap

Mengikis tapak web JavaScript dengan cekap

Nov 20, 2024 am 01:12 AM

Effizientes Scrapen von JavaScript-Webseiten

Kemungkinan menggunakan JavaScript untuk merangkak web

Tapak web statik: Axios dan Cheerio
Mari jalani merangkak tapak web eCommerce statik menggunakan JavaScript. Untuk contoh ini, kami akan menggunakan dua perpustakaan popular: Axios untuk permintaan HTTP dan Cheerio untuk menghuraikan HTML.

*1. Pasang kebergantungan *
Pasang Axios dan Cheerio dengan npm:

npm pasang axios cheerio

*2. Cipta skrip *
Buat fail JavaScript, mis. B. scrapeEcommerce.js dan bukanya dalam editor kod anda.

*3. Import modul *
Import Axios dan Cheerio ke dalam skrip anda:

const axios = memerlukan('axios');

const cheerio = memerlukan('cheerio');

*4. Tentukan URL sasaran *
Pilih tapak web eCommerce yang ingin anda akses. Dalam contoh ini kami menggunakan URL hipotesis http://example-ecommerce.com. Gantikan ini dengan URL yang dikehendaki:

url const = 'http://example-ecommerce.com';

*5. Dapatkan kandungan HTML *
Gunakan Axios untuk menghantar permintaan GET ke URL sasaran dan dapatkan kandungan HTML:

axios.get(url)

.then(respon => {

const html = respons.data;

// Kandungan HTML kini boleh dihuraikan

})

.catch(error => {

console.error('Ralat mengambil halaman:', ralat);

});

*6. Menghuraikan HTML dan mengekstrak data *
Gunakan Cheerio untuk menghuraikan kod HTML dan mengekstrak maklumat yang anda inginkan, seperti nama produk dan harga:

axios.get(url)

.then(respon => {

const html = respons.data;

const $ = cheerio.load(html);

const products = [];  

$('.product').each((index, element) => {  
  const name = $(element).find('.product-name').text().trim();  
  const price = $(element).find('.product-price').text().trim();  
  products.push({ name, price });  
});  

console.log(products);  
Salin selepas log masuk
Salin selepas log masuk

})

.catch(error => {

console.error('Ralat mengambil halaman:', ralat);

});

*Mata yang paling penting *

  • axios.get(url): Menghantar permintaan GET dan mengembalikan janji.
  • .then(response => { … }): Jika permintaan berjaya, kandungan HTML adalah sebagai response.data.
  • cheerio.load(html): Memuatkan kandungan HTML ke dalam Cheerio untuk manipulasi DOM seperti jQuery.
  • $('.product').each((index, element) => { … }): Berulang ke atas semua elemen .product.
  • $(elemen).find('.product-name').text().trim(): Mengeluarkan nama produk.
  • $(elemen).find('.product-price').text().trim(): Mengeluarkan harga produk.
  • products.push({ name, price }): Menambah maklumat produk pada tatasusunan produk.
  • console.log(products): Mengeluarkan maklumat yang diekstrak.

*Skrip contoh penuh: *
const axios = memerlukan('axios');

const cheerio = memerlukan('cheerio');

url const = 'http://example-ecommerce.com';

axios.get(url)

.then(respon => {

const html = respons.data;

const $ = cheerio.load(html);

const products = [];  

$('.product').each((index, element) => {  
  const name = $(element).find('.product-name').text().trim();  
  const price = $(element).find('.product-price').text().trim();  
  products.push({ name, price });  
});  

console.log(products);  
Salin selepas log masuk
Salin selepas log masuk

})

.catch(error => {

console.error('Ralat mengambil halaman:', ralat);

});

*Penyesuaian untuk halaman pendaratan anda: *

  • Pemilih: Pemilih .product, .product-name dan .product-price mesti disesuaikan dengan struktur HTML sebenar halaman sasaran.
  • Data tambahan: Untuk mendapatkan maklumat tambahan (cth. imej produk, pautan, penerangan) semak struktur HTML yang sepadan.

Alat mengikis web untuk mengikis tapak web menggunakan JavaScript

Jika baru-baru ini anda memerlukan Python, Ruby atau bahasa pengaturcaraan lain untuk mengikis web, Octoparse ialah alat yang sangat baik, terutamanya untuk tapak web dengan sokongan JavaScript.

Mari kita ambil contoh konkrit: Jika anda mempunyai tapak web sasaran dan ingin mula mengikis, anda harus terlebih dahulu menyemak sama ada tapak tersebut disekat terhadap pengikisan JS. Tapak web yang berbeza menggunakan kaedah perlindungan yang berbeza, dan mungkin mengambil sedikit masa dan percubaan yang mengecewakan sebelum anda menyedari bahawa ada sesuatu yang tidak kena, terutamanya jika mengikis tidak menghasilkan hasil yang diingini. Walau bagaimanapun, dengan alat pengikis web, proses pengekstrakan data berjalan lancar.

Banyak alat pengikis web menyelamatkan anda daripada perangkak menulis. Octoparse sangat cekap dalam mengikis halaman JavaScript-berat dan boleh mengekstrak data daripada 99% halaman web, termasuk yang menggunakan Ajax. Ia juga menawarkan perkhidmatan penyelesaian Captcha. Octoparse adalah percuma untuk digunakan dan menawarkan ciri auto-penemuan dan lebih 100 templat yang mudah digunakan yang membolehkan pengekstrakan data yang cekap. Pengguna baharu juga boleh memanfaatkan percubaan selama 14 hari.

Atas ialah kandungan terperinci Mengikis tapak web JavaScript dengan cekap. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Adakah perisian keselamatan syarikat menyebabkan aplikasi gagal dijalankan? Bagaimana cara menyelesaikan masalah dan menyelesaikannya? Adakah perisian keselamatan syarikat menyebabkan aplikasi gagal dijalankan? Bagaimana cara menyelesaikan masalah dan menyelesaikannya? Apr 19, 2025 pm 04:51 PM

Penyelesaian masalah dan penyelesaian kepada perisian keselamatan syarikat yang menyebabkan beberapa aplikasi tidak berfungsi dengan baik. Banyak syarikat akan menggunakan perisian keselamatan untuk memastikan keselamatan rangkaian dalaman. …

Bagaimana untuk memudahkan isu pemetaan medan dalam dok sistem menggunakan mapstruct? Bagaimana untuk memudahkan isu pemetaan medan dalam dok sistem menggunakan mapstruct? Apr 19, 2025 pm 06:21 PM

Pemprosesan pemetaan medan dalam dok sistem sering menemui masalah yang sukar ketika melaksanakan sistem dok: bagaimana untuk memetakan medan antara muka sistem dengan berkesan ...

Bagaimanakah saya menukar nama kepada nombor untuk melaksanakan penyortiran dan mengekalkan konsistensi dalam kumpulan? Bagaimanakah saya menukar nama kepada nombor untuk melaksanakan penyortiran dan mengekalkan konsistensi dalam kumpulan? Apr 19, 2025 pm 11:30 PM

Penyelesaian untuk menukar nama kepada nombor untuk melaksanakan penyortiran dalam banyak senario aplikasi, pengguna mungkin perlu menyusun kumpulan, terutama dalam satu ...

Bagaimana dengan elegan mendapatkan nama pemboleh ubah kelas entiti untuk membina keadaan pertanyaan pangkalan data? Bagaimana dengan elegan mendapatkan nama pemboleh ubah kelas entiti untuk membina keadaan pertanyaan pangkalan data? Apr 19, 2025 pm 11:42 PM

Apabila menggunakan Mybatis-Plus atau Rangka Kerja ORM yang lain untuk operasi pangkalan data, sering diperlukan untuk membina syarat pertanyaan berdasarkan nama atribut kelas entiti. Sekiranya anda secara manual setiap kali ...

Bagaimanakah Idea IntelliJ mengenal pasti nombor port projek boot musim bunga tanpa mengeluarkan log? Bagaimanakah Idea IntelliJ mengenal pasti nombor port projek boot musim bunga tanpa mengeluarkan log? Apr 19, 2025 pm 11:45 PM

Mula musim bunga menggunakan versi IntelliJideaultimate ...

Bagaimana cara menukar objek Java dengan selamat ke array? Bagaimana cara menukar objek Java dengan selamat ke array? Apr 19, 2025 pm 11:33 PM

Penukaran objek dan tatasusunan Java: Perbincangan mendalam tentang risiko dan kaedah penukaran jenis cast yang betul Banyak pemula Java akan menemui penukaran objek ke dalam array ...

Platform e-dagang SKU dan Reka Bentuk Pangkalan Data SPU: Bagaimana untuk mengambil kira kedua-dua atribut yang ditakrifkan oleh pengguna dan produk yang tidak berkesudahan? Platform e-dagang SKU dan Reka Bentuk Pangkalan Data SPU: Bagaimana untuk mengambil kira kedua-dua atribut yang ditakrifkan oleh pengguna dan produk yang tidak berkesudahan? Apr 19, 2025 pm 11:27 PM

Penjelasan terperinci mengenai reka bentuk jadual SKU dan SPU di platform e-dagang Artikel ini akan membincangkan isu reka bentuk pangkalan data SKU dan SPU dalam platform e-dagang, terutamanya bagaimana menangani jualan yang ditentukan pengguna ...

Bagaimana dengan elegan mendapatkan syarat pertanyaan bangunan pembolehubah kelas entiti apabila menggunakan tkmybatis untuk pertanyaan pangkalan data? Bagaimana dengan elegan mendapatkan syarat pertanyaan bangunan pembolehubah kelas entiti apabila menggunakan tkmybatis untuk pertanyaan pangkalan data? Apr 19, 2025 pm 09:51 PM

Apabila menggunakan tkmybatis untuk pertanyaan pangkalan data, bagaimana dengan anggun mendapatkan nama pembolehubah kelas entiti untuk membina keadaan pertanyaan adalah masalah biasa. Artikel ini akan ...

See all articles