


Mari kita bincangkan tentang cara menggunakan perpustakaan sumber terbuka pihak ketiga untuk melaksanakan fungsi merangkak tapak web dalam nod
Artikel ini akan memperkenalkan kepada anda cara mudah melaksanakan fungsi merangkak tapak web dalam nod dengan bantuan perpustakaan sumber terbuka pihak ketiga, saya harap ia akan membantu anda!
nodejsMelaksanakan fungsi merangkak tapak web
Pengenalan kepada perpustakaan pihak ketiga
minta enkapsulasi permintaan rangkaian
versi nod cheerio jQuery
mkdirp mencipta berbilang lapisan Direktori folder
Idea pelaksanaan
Dapatkan kandungan url yang ditentukan melalui
request
Cari laluan lompat dalam halaman melalui
cheerio
(alih keluar pendua)Buat direktori melalui
mkdirp
Buat fail melalui
fs
dan tulis kandungan baca ke dalamDapatkan laluan yang tidak diakses dan ulangi langkah di atas
Pelaksanaan kod
const fs = require("fs"); const path = require("path"); const request = require("request"); const cheerio = require("cheerio"); const mkdirp = require("mkdirp"); // 定义入口url const homeUrl = "https://www.baidu.com"; // 定义set存储已经访问过的路径,避免重复访问 const set = new Set([homeUrl]); function grab(url) { // 校验url规范性 if (!url) return; // 去空格 url = url.trim(); // 自动补全url路径 if (url.endsWith("/")) { url += "index.html"; } const chunks = []; // url可能存在一些符号或者中文,可以通过encodeURI编码 request(encodeURI(url)) .on("error", (e) => { // 打印错误信息 console.log(e); }) .on("data", (chunk) => { // 接收响应内容 chunks.push(chunk); }) .on("end", () => { // 将相应内容转换成文本 const html = Buffer.concat(chunks).toString(); // 没有获取到内容 if (!html) return; // 解析url let { host, origin, pathname } = new URL(url); pathname = decodeURI(pathname); // 通过cheerio解析html const $ = cheerio.load(html); // 将路径作为目录 const dir = path.dirname(pathname); // 创建目录 mkdirp.sync(path.join(__dirname, dir)); // 往文件写入内容 fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => { // 打印错误信息 if (err) { console.log(err); return; } console.log(`[${url}]保存成功`); }); // 获取到页面中所有a元素 const aTags = $("a"); Array.from(aTags).forEach((aTag) => { // 获取到a标签中的路径 const href = $(aTag).attr("href"); // 此处可以校验href的合法或者控制爬去的网站范围,比如必须都是某个域名下的 // 排除空标签 if (!href) return; // 排除锚点连接 if (href.startsWith("#")) return; if (href.startsWith("mailto:")) return; // 如果不想要保存图片可以过滤掉 // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return; // href必须是入口url域名 let reg = new RegExp(`^https?:\/\/${host}`); if (/^https?:\/\//.test(href) && !reg.test(href)) return; // 可以根据情况增加更多逻辑 let newUrl = ""; if (/^https?:\/\//.test(href)) { // 处理绝对路径 newUrl = href; } else { // 处理相对路径 newUrl = origin + path.join(dir, href); } // 判断是否访问过 if (set.has(newUrl)) return; if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return; if (newUrl.endsWith("/")) newUrl += "index.html"; set.add(newUrl); grab(newUrl); }); }); } // 开始抓取 grab(homeUrl);
Ringkasan
Halaman web ringkas Perangkak selesai. Anda boleh cuba menukar homeUrl kepada tapak web yang ingin anda crawl.
Untuk lebih banyak pengetahuan berkaitan nod, sila lawati: tutorial nodejs! !
Atas ialah kandungan terperinci Mari kita bincangkan tentang cara menggunakan perpustakaan sumber terbuka pihak ketiga untuk melaksanakan fungsi merangkak tapak web dalam nod. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas





Bagaimana untuk mengendalikan muat naik fail? Artikel berikut akan memperkenalkan kepada anda cara menggunakan ekspres untuk mengendalikan muat naik fail dalam projek nod saya harap ia akan membantu anda!

Cara memadam nod dengan nvm: 1. Muat turun "nvm-setup.zip" dan pasangkannya pada pemacu C 2. Konfigurasikan pembolehubah persekitaran dan semak nombor versi melalui arahan "nvm -v" 3. Gunakan "nvm arahan install" Pasang nod; 4. Padamkan nod yang dipasang melalui arahan "nvm uninstall".

Dalam tempoh ini, saya sedang membangunkan perkhidmatan dinamik HTML yang biasa kepada semua kategori dokumen Tencent Untuk memudahkan penjanaan dan penggunaan akses kepada pelbagai kategori, dan untuk mematuhi trend beralih ke awan, saya sedang mempertimbangkan. menggunakan Docker untuk membetulkan kandungan perkhidmatan dan mengurus versi produk secara seragam. Artikel ini akan berkongsi pengalaman pengoptimuman yang saya kumpulkan dalam proses perkhidmatan Docker untuk rujukan anda.

Artikel ini akan berkongsi dengan anda alat pengurusan proses Node "pm2", dan bercakap tentang mengapa pm2 diperlukan, cara memasang dan menggunakan pm2, saya harap ia akan membantu semua orang!

Penjelasan dan Panduan Pemasangan Terperinci untuk Pinetwork Nodes Artikel ini akan memperkenalkan ekosistem pinetwork secara terperinci - nod pi, peranan utama dalam ekosistem pinetwork, dan menyediakan langkah -langkah lengkap untuk pemasangan dan konfigurasi. Selepas pelancaran Rangkaian Ujian Blockchain Pinetwork, nod PI telah menjadi bahagian penting dari banyak perintis yang aktif mengambil bahagian dalam ujian, bersiap sedia untuk pelepasan rangkaian utama yang akan datang. Jika anda tidak tahu kerja pinet, sila rujuk apa itu picoin? Berapakah harga untuk penyenaraian? Penggunaan PI, perlombongan dan analisis keselamatan. Apa itu Pinetwork? Projek Pinetwork bermula pada tahun 2019 dan memiliki syiling pi cryptocurrency eksklusifnya. Projek ini bertujuan untuk mewujudkan satu yang semua orang boleh mengambil bahagian

Bagaimana untuk membungkus fail boleh laku nodejs dengan pkg? Artikel berikut akan memperkenalkan kepada anda cara menggunakan pkg untuk membungkus projek Node ke dalam fail boleh laku. Saya harap ia akan membantu anda!

npm node gyp gagal kerana versi "node-gyp.js" dan "Node.js" tidak sepadan Penyelesaiannya: 1. Kosongkan cache nod melalui "npm cache clean -f" 2. Melalui "npm install -. g n" Pasang modul n; 3. Pasang versi "nod v12.21.0" melalui arahan "n v12.21.0".

Pengesahan adalah salah satu bahagian terpenting dalam mana-mana aplikasi web. Tutorial ini membincangkan sistem pengesahan berasaskan token dan cara ia berbeza daripada sistem log masuk tradisional. Pada penghujung tutorial ini, anda akan melihat demo berfungsi sepenuhnya yang ditulis dalam Angular dan Node.js. Sistem Pengesahan Tradisional Sebelum beralih kepada sistem pengesahan berasaskan token, mari kita lihat sistem pengesahan tradisional. Pengguna memberikan nama pengguna dan kata laluan mereka dalam borang log masuk dan klik Log Masuk. Selepas membuat permintaan, sahkan pengguna di bahagian belakang dengan menanyakan pangkalan data. Jika permintaan itu sah, sesi dibuat menggunakan maklumat pengguna yang diperoleh daripada pangkalan data dan maklumat sesi dikembalikan dalam pengepala respons supaya ID sesi disimpan dalam penyemak imbas. Menyediakan akses kepada aplikasi tertakluk kepada
