


Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat
Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat
Pengenalan:
Perangkak web ialah alat program yang memperoleh maklumat daripada Internet Ia boleh mengakses halaman web secara automatik dan menghuraikan data di dalamnya. Menggunakan perangkak web, kami boleh merangkak dengan pantas sejumlah besar data untuk menyediakan sokongan untuk analisis data dan keputusan perniagaan. Artikel ini akan memperkenalkan cara membina perangkak web mudah menggunakan Redis dan JavaScript serta menunjukkan cara merangkak data dengan cepat.
- Persediaan persekitaran
Sebelum bermula, kita perlu menyediakan persekitaran berikut: - Redis: digunakan sebagai penjadual tugas dan penyimpanan data perangkak.
- Node.js: Jalankan kod JavaScript.
- Cheerio: Pustaka untuk menghuraikan halaman HTML.
- Reka bentuk seni bina crawler
Perangkak kami akan menggunakan seni bina teragih dan dibahagikan kepada dua bahagian: penjadual tugas dan nod perangkak.
- Penjadual Tugas: Bertanggungjawab untuk menambahkan URL untuk dirangkak ke baris gilir Redis, dan melaksanakan tetapan penyahduplikasian dan keutamaan mengikut keperluan.
- Nod crawler: Bertanggungjawab untuk mendapatkan URL yang akan dirangkak daripada baris gilir Redis, menghuraikan halaman, mengekstrak data dan menyimpannya dalam Redis.
- Contoh kod penjadual tugas
Contoh kod penjadual tugas adalah seperti berikut:
const redis = require('redis'); const client = redis.createClient(); // 添加待抓取的URL到队列 const enqueueUrl = (url, priority = 0) => { client.zadd('urls', priority, url); } // 从队列中获取待抓取的URL const dequeueUrl = () => { return new Promise((resolve, reject) => { client.zrange('urls', 0, 0, (err, urls) => { if (err) reject(err); else resolve(urls[0]); }) }) } // 判断URL是否已经被抓取过 const isUrlVisited = (url) => { return new Promise((resolve, reject) => { client.sismember('visited_urls', url, (err, result) => { if (err) reject(err); else resolve(!!result); }) }) } // 将URL标记为已经被抓取过 const markUrlVisited = (url) => { client.sadd('visited_urls', url); }
Dalam kod di atas, kami menggunakan struktur data pengumpulan dan pengumpulan yang dipesan Redis, koleksi terperintah visited_urls
digunakan untuk menyimpan URL yang telah dirangkak. urls
用于存储待抓取的URL,集合visited_urls
用于存储已经被抓取过的URL。
- 爬虫节点代码示例
爬虫节点的代码示例如下:
const request = require('request'); const cheerio = require('cheerio'); // 从指定的URL中解析数据 const parseData = (url) => { return new Promise((resolve, reject) => { request(url, (error, response, body) => { if (error) reject(error); else { const $ = cheerio.load(body); // 在这里对页面进行解析,并提取数据 // ... resolve(data); } }) }) } // 爬虫节点的主逻辑 const crawler = async () => { while (true) { const url = await dequeueUrl(); if (!url) break; if (await isUrlVisited(url)) continue; try { const data = await parseData(url); // 在这里将数据存储到Redis中 // ... markUrlVisited(url); } catch (error) { console.error(`Failed to parse data from ${url}`, error); } } } crawler();
在上面的代码中,我们使用了request
库发送HTTP请求,使用cheerio
库解析页面。在parseData
函数中,我们可以根据具体的页面结构和数据提取需求,使用cheerio
- Contoh kod nod crawler
Contoh kod nod crawler adalah seperti berikut:
request
untuk menghantar HTTP permintaan, gunakan perpustakaan cheerio menghuraikan halaman. Dalam fungsi parseData
, kita boleh menggunakan pustaka cheerio
untuk menghuraikan halaman dan mengekstrak data mengikut struktur halaman tertentu dan keperluan pengekstrakan data. Dalam logik utama nod perangkak, kami gelung untuk mendapatkan URL untuk dirangkak daripada baris gilir Redis dan melakukan penghuraian halaman dan penyimpanan data. 🎜🎜Ringkasan: 🎜Dengan memanfaatkan Redis dan JavaScript, kami boleh membina perangkak web yang ringkas tetapi berkuasa untuk merangkak dengan pantas sejumlah besar data. Kami boleh menggunakan penjadual tugas untuk menambah URL untuk dirangkak ke baris gilir Redis dan mendapatkan URL daripada baris gilir dalam nod perangkak untuk penghuraian halaman dan penyimpanan data. Seni bina yang diedarkan ini boleh meningkatkan kecekapan merangkak, dan melalui storan data dan ciri berprestasi tinggi Redis, sejumlah besar data boleh diproses dengan mudah. 🎜Atas ialah kandungan terperinci Bina perangkak web mudah menggunakan Redis dan JavaScript: Cara merangkak data dengan cepat. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas





Mod Redis cluster menyebarkan contoh Redis ke pelbagai pelayan melalui sharding, meningkatkan skalabilitas dan ketersediaan. Langkah -langkah pembinaan adalah seperti berikut: Buat contoh Redis ganjil dengan pelabuhan yang berbeza; Buat 3 contoh sentinel, memantau contoh redis dan failover; Konfigurasi fail konfigurasi sentinel, tambahkan pemantauan maklumat contoh dan tetapan failover; Konfigurasi fail konfigurasi contoh Redis, aktifkan mod kluster dan tentukan laluan fail maklumat kluster; Buat fail nodes.conf, yang mengandungi maklumat setiap contoh Redis; Mulakan kluster, laksanakan perintah Buat untuk membuat kluster dan tentukan bilangan replika; Log masuk ke kluster untuk melaksanakan perintah maklumat kluster untuk mengesahkan status kluster; buat

Cara Mengosongkan Data Redis: Gunakan perintah Flushall untuk membersihkan semua nilai utama. Gunakan perintah flushdb untuk membersihkan nilai utama pangkalan data yang dipilih sekarang. Gunakan Pilih untuk menukar pangkalan data, dan kemudian gunakan FlushDB untuk membersihkan pelbagai pangkalan data. Gunakan perintah DEL untuk memadam kunci tertentu. Gunakan alat REDIS-CLI untuk membersihkan data.

Untuk membaca giliran dari Redis, anda perlu mendapatkan nama giliran, membaca unsur -unsur menggunakan arahan LPOP, dan memproses barisan kosong. Langkah-langkah khusus adalah seperti berikut: Dapatkan nama giliran: Namakannya dengan awalan "giliran:" seperti "giliran: my-queue". Gunakan arahan LPOP: Keluarkan elemen dari kepala barisan dan kembalikan nilainya, seperti LPOP Queue: My-Queue. Memproses Baris kosong: Jika barisan kosong, LPOP mengembalikan nihil, dan anda boleh menyemak sama ada barisan wujud sebelum membaca elemen.

Menggunakan Arahan Redis memerlukan langkah -langkah berikut: Buka klien Redis. Masukkan arahan (nilai kunci kata kerja). Menyediakan parameter yang diperlukan (berbeza dari arahan ke arahan). Tekan Enter untuk melaksanakan arahan. Redis mengembalikan tindak balas yang menunjukkan hasil operasi (biasanya OK atau -r).

Menggunakan REDIS untuk mengunci operasi memerlukan mendapatkan kunci melalui arahan SETNX, dan kemudian menggunakan perintah luput untuk menetapkan masa tamat tempoh. Langkah-langkah khusus adalah: (1) Gunakan arahan SETNX untuk cuba menetapkan pasangan nilai utama; (2) Gunakan perintah luput untuk menetapkan masa tamat tempoh untuk kunci; (3) Gunakan perintah DEL untuk memadam kunci apabila kunci tidak lagi diperlukan.

Cara terbaik untuk memahami kod sumber REDIS adalah dengan langkah demi langkah: Dapatkan akrab dengan asas -asas Redis. Pilih modul atau fungsi tertentu sebagai titik permulaan. Mulakan dengan titik masuk modul atau fungsi dan lihat baris kod mengikut baris. Lihat kod melalui rantaian panggilan fungsi. Berhati -hati dengan struktur data asas yang digunakan oleh REDIS. Kenal pasti algoritma yang digunakan oleh Redis.

Gunakan alat baris perintah redis (redis-cli) untuk mengurus dan mengendalikan redis melalui langkah-langkah berikut: Sambungkan ke pelayan, tentukan alamat dan port. Hantar arahan ke pelayan menggunakan nama arahan dan parameter. Gunakan arahan bantuan untuk melihat maklumat bantuan untuk arahan tertentu. Gunakan perintah berhenti untuk keluar dari alat baris arahan.

Pada sistem CentOS, anda boleh mengehadkan masa pelaksanaan skrip LUA dengan mengubah fail konfigurasi REDIS atau menggunakan arahan REDIS untuk mengelakkan skrip jahat daripada memakan terlalu banyak sumber. Kaedah 1: Ubah suai fail konfigurasi Redis dan cari fail konfigurasi Redis: Fail konfigurasi Redis biasanya terletak di /etc/redis/redis.conf. Edit Fail Konfigurasi: Buka fail konfigurasi menggunakan editor teks (seperti Vi atau nano): sudovi/etc/redis/redis.conf Tetapkan had masa pelaksanaan skrip lua: Tambah atau ubah suai baris berikut dalam fail konfigurasi untuk menetapkan masa pelaksanaan maksimum skrip lua (unit: milidor)
