Cara menulis crawler dengan nodejs: 1. Pasang Node.js; 2. Buat fail bernama `crawler.js`; ()` kaedah Hantar permintaan HTTP GET untuk mendapatkan kandungan halaman selepas mendapatkan kandungan, gunakan kaedah `cheerio.load()` untuk menukarnya menjadi objek DOM yang boleh dikendalikan 5. Simpan dan jalankan `crawler.js`; fail.
Node.js ialah persekitaran masa jalan JavaScript bahagian pelayan yang sangat berkuasa, yang boleh digunakan untuk menulis pelbagai jenis aplikasi, termasuk perangkak web. Dalam artikel ini, kami akan menerangkan cara menulis perangkak web mudah menggunakan Node.js.
Mula-mula, kita perlu memasang Node.js. Anda boleh memuat turun dan memasang versi yang sesuai untuk sistem pengendalian anda dari tapak web rasmi (https://nodejs.org).
Seterusnya, kita perlu memasang beberapa pakej pergantungan yang diperlukan. Buka terminal (atau command prompt) dan masukkan arahan berikut:
npm install axios cheerio
Ini akan memasang dua pakej penting, axios dan cheerio. axios ialah perpustakaan untuk menghantar permintaan HTTP, manakala cheerio ialah perpustakaan seperti jQuery untuk menghuraikan dokumen HTML.
Kini, kami boleh mula menulis kod perangkak kami. Cipta fail baharu, namakannya `crawler.js` dan masukkan kod berikut dalam fail:
const axios = require('axios'); const cheerio = require('cheerio'); // 定义要爬取的网页URL const url = 'https://example.com'; // 发送HTTP GET请求并获取页面内容 axios.get(url) .then(response => { // 使用cheerio解析HTML文档 const $ = cheerio.load(response.data); // 在这里编写你的爬虫逻辑 // 你可以使用$来选择和操作HTML元素,类似于jQuery // 例如,获取页面标题 const title = $('title').text(); console.log('页面标题:', title); }) .catch(error => { console.error('请求页面失败:', error); });
Dalam kod di atas, kami mula-mula memperkenalkan perpustakaan `axios` dan `cheerio`. Kemudian, kami mentakrifkan URL halaman web untuk merangkak dan menggunakan kaedah `axios.get()` untuk menghantar HTTP GET permintaan untuk mendapatkan kandungan halaman. Sebaik sahaja kami mendapat kandungan halaman, kami menukarnya menjadi objek DOM yang boleh dimanipulasi menggunakan kaedah cheerio.load().
Dalam fungsi panggil balik `kemudian`, kami boleh menulis logik perangkak kami. Dalam contoh ini, kami menggunakan pemilih `$` untuk mendapatkan tajuk halaman dan mencetaknya ke konsol.
Akhir sekali, kami menggunakan kaedah `catch` untuk menangani kegagalan meminta halaman dan mencetak mesej ralat ke konsol.
Simpan dan jalankan fail `crawler.js`:
node crawler.js
Jika semuanya berjalan lancar, anda sepatutnya dapat melihat tajuk halaman dicetak ke konsol.
Ini hanyalah contoh mudah, anda boleh menulis logik crawler yang lebih kompleks mengikut keperluan anda sendiri. Anda boleh menggunakan pemilih `$` untuk memilih dan memanipulasi elemen HTML untuk mengekstrak data yang anda minati. Anda juga boleh menggunakan perpustakaan `axios` untuk menghantar permintaan HTTP dan menggunakan pustaka lain untuk memproses data, seperti perpustakaan `fs` untuk menyimpan data ke fail.
Perlu diingat bahawa semasa menulis perangkak web, anda perlu mematuhi terma penggunaan tapak web serta undang-undang dan peraturan. Pastikan perangkak anda bertindak secara sah dan tidak meletakkan beban yang tidak wajar pada tapak web sasaran.
Untuk meringkaskan, menulis perangkak web menggunakan Node.js adalah sangat mudah dan berkuasa. Anda boleh menggunakan pustaka `axios` untuk menghantar permintaan HTTP, pustaka `cheerio` untuk menghuraikan dokumen HTML dan menggunakan pustaka lain untuk memproses data. Saya harap artikel ini dapat membantu anda bermula dalam dunia perangkak web!
Atas ialah kandungan terperinci Bagaimana untuk menulis perangkak dalam nodejs. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!