聊聊node中怎么借助第三方开源库实现网站爬取功能
本篇文章给大家介绍一下node中借助第三方开源库轻松实现网站爬取功能的方法,希望对大家有所帮助!
nodejs实现网站爬取功能
第三方库介绍
request 对网络请求的封装
cheerio node 版本的 jQuery
mkdirp 创建多层的文件夹目录
实现思路
通过
request
获取指定 url 内容通过
cheerio
找到页面中跳转的路径(去重)通过
mkdirp
创建目录通过
fs
创建文件,将读取的内容写入拿到没有访问的路径重复以上执行步骤
代码实现
const fs = require("fs"); const path = require("path"); const request = require("request"); const cheerio = require("cheerio"); const mkdirp = require("mkdirp"); // 定义入口url const homeUrl = "https://www.baidu.com"; // 定义set存储已经访问过的路径,避免重复访问 const set = new Set([homeUrl]); function grab(url) { // 校验url规范性 if (!url) return; // 去空格 url = url.trim(); // 自动补全url路径 if (url.endsWith("/")) { url += "index.html"; } const chunks = []; // url可能存在一些符号或者中文,可以通过encodeURI编码 request(encodeURI(url)) .on("error", (e) => { // 打印错误信息 console.log(e); }) .on("data", (chunk) => { // 接收响应内容 chunks.push(chunk); }) .on("end", () => { // 将相应内容转换成文本 const html = Buffer.concat(chunks).toString(); // 没有获取到内容 if (!html) return; // 解析url let { host, origin, pathname } = new URL(url); pathname = decodeURI(pathname); // 通过cheerio解析html const $ = cheerio.load(html); // 将路径作为目录 const dir = path.dirname(pathname); // 创建目录 mkdirp.sync(path.join(__dirname, dir)); // 往文件写入内容 fs.writeFile(path.join(__dirname, pathname), html, "utf-8", (err) => { // 打印错误信息 if (err) { console.log(err); return; } console.log(`[${url}]保存成功`); }); // 获取到页面中所有a元素 const aTags = $("a"); Array.from(aTags).forEach((aTag) => { // 获取到a标签中的路径 const href = $(aTag).attr("href"); // 此处可以校验href的合法或者控制爬去的网站范围,比如必须都是某个域名下的 // 排除空标签 if (!href) return; // 排除锚点连接 if (href.startsWith("#")) return; if (href.startsWith("mailto:")) return; // 如果不想要保存图片可以过滤掉 // if (/\.(jpg|jpeg|png|gif|bit)$/.test(href)) return; // href必须是入口url域名 let reg = new RegExp(`^https?:\/\/${host}`); if (/^https?:\/\//.test(href) && !reg.test(href)) return; // 可以根据情况增加更多逻辑 let newUrl = ""; if (/^https?:\/\//.test(href)) { // 处理绝对路径 newUrl = href; } else { // 处理相对路径 newUrl = origin + path.join(dir, href); } // 判断是否访问过 if (set.has(newUrl)) return; if (newUrl.endsWith("/") && set.has(newUrl + "index.html")) return; if (newUrl.endsWith("/")) newUrl += "index.html"; set.add(newUrl); grab(newUrl); }); }); } // 开始抓取 grab(homeUrl);
总结
简单的网页爬虫就完成了,可以把homeUrl改成自己想要爬取的网站试试。
更多node相关知识,请访问:nodejs 教程!!
以上是聊聊node中怎么借助第三方开源库实现网站爬取功能的详细内容。更多信息请关注PHP中文网其他相关文章!

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

Video Face Swap
使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

怎么处理文件上传?下面本篇文章给大家介绍一下node项目中如何使用express来处理文件的上传,希望对大家有所帮助!

nvm删除node的方法:1、下载“nvm-setup.zip”并将其安装在C盘;2、配置环境变量,并通过“nvm -v”命令查看版本号;3、使用“nvm install”命令安装node;4、通过“nvm uninstall”命令删除已安装的node即可。

这段时间在开发一个腾讯文档全品类通用的 HTML 动态服务,为了方便各品类接入的生成与部署,也顺应上云的趋势,考虑使用 Docker 的方式来固定服务内容,统一进行制品版本的管理。本篇文章就将我在服务 Docker 化的过程中积累起来的优化经验分享出来,供大家参考。

本篇文章给大家分享Node的进程管理工具“pm2”,聊聊为什么需要pm2、安装和使用pm2的方法,希望对大家有所帮助!

PiNetwork节点详解及安装指南本文将详细介绍PiNetwork生态系统中的关键角色——Pi节点,并提供安装和配置的完整步骤。Pi节点在PiNetwork区块链测试网推出后,成为众多先锋积极参与测试的重要环节,为即将到来的主网发布做准备。如果您还不了解PiNetwork,请参考Pi币是什么?上市价格多少?Pi用途、挖矿及安全性分析。什么是PiNetwork?PiNetwork项目始于2019年,拥有其专属加密货币Pi币。该项目旨在创建一个人人可参与

如何用pkg打包nodejs可执行文件?下面本篇文章给大家介绍一下使用pkg将Node项目打包为可执行文件的方法,希望对大家有所帮助!

npm node gyp失败是因为“node-gyp.js”跟“Node.js”版本不匹配,其解决办法:1、通过“npm cache clean -f”清除node缓存;2、通过“npm install -g n”安装n模块;3、通过“n v12.21.0”命令安装“node v12.21.0”版本即可。

身份验证是任何Web应用程序中最重要的部分之一。本教程讨论基于令牌的身份验证系统以及它们与传统登录系统的区别。在本教程结束时,您将看到一个用Angular和Node.js编写的完整工作演示。传统身份验证系统在继续基于令牌的身份验证系统之前,让我们先看一下传统的身份验证系统。用户在登录表单中提供用户名和密码,然后点击登录。发出请求后,通过查询数据库在后端验证用户。如果请求有效,则使用从数据库中获取的用户信息创建会话,然后在响应头中返回会话信息,以便将会话ID存储在浏览器中。提供用于访问应用程序中受
