核心要点
cheerio
和 request
等模块来实现。cheerio
模块实现了 jQuery 的一个子集,可以从 HTML 字符串构建 DOM 并进行解析,但它可能难以处理结构不良的 HTML。request
和 cheerio
可以构建完整的网页抓取程序来提取网页的特定元素,但是处理动态内容、避免被封禁以及处理需要登录或使用 CAPTCHA 的网站会更加复杂,可能需要额外的工具或策略。网页抓取程序是通过编程方式访问网页并从中提取数据的软件。由于内容重复等问题,网页抓取是一个有点争议的话题。大多数网站所有者更倾向于通过公开可用的 API 访问其数据。不幸的是,许多网站提供的 API 质量很差,甚至根本没有 API。这迫使许多开发人员转向网页抓取。本文将教你如何在 Node.js 中实现你自己的网页抓取程序。网页抓取的第一步是从远程服务器下载源代码。在“在 Node.js 中发出 HTTP 请求”中,读者学习了如何使用 request
模块下载页面。以下示例快速回顾了在 Node.js 中发出 GET 请求的方法。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
网页抓取的第二步,也是更困难的一步,是从下载的源代码中提取数据。在客户端,使用选择器 API 或 jQuery 等库可以轻松完成此任务。不幸的是,这些解决方案依赖于可以查询 DOM 的假设。遗憾的是,Node.js 没有提供 DOM。或者有吗?
Cheerio 模块
虽然 Node.js 没有内置 DOM,但有一些模块可以从 HTML 源代码字符串构建 DOM。两个流行的 DOM 模块是 cheerio
和 jsdom
。本文重点介绍 cheerio
,可以使用以下命令安装:
npm install cheerio
cheerio
模块实现了 jQuery 的一个子集,这意味着许多开发人员可以快速上手。事实上,cheerio
与 jQuery 非常相似,你很容易发现自己试图使用 cheerio
中未实现的 jQuery 函数。以下示例展示了如何使用 cheerio
解析 HTML 字符串。第一行将 cheerio
导入程序。html
变量保存要解析的 HTML 片段。在第 3 行,使用 cheerio
解析 HTML。结果赋值给 $
变量。选择美元符号是因为它传统上用于 jQuery。第 4 行使用 CSS 样式选择器选择 <code><ul>
元素。最后,使用 html()
方法打印列表的内部 HTML。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
cheerio
正在积极开发中,并且一直在改进。但是,它仍然有一些限制。cheerio
最令人沮丧的方面是 HTML 解析器。HTML 解析是一个难题,并且有很多网页包含不良的 HTML。虽然 cheerio
不会在这些页面上崩溃,但你可能会发现自己无法选择元素。这使得难以确定错误在于你的选择器还是页面本身。
抓取 JSPro
以下示例结合 request
和 cheerio
来构建一个完整的网页抓取程序。该示例抓取程序提取 JSPro 首页上所有文章的标题和 URL。前两行将所需的模块导入示例。第 3 到第 5 行下载 JSPro 首页的源代码。然后将源代码传递给 cheerio
进行解析。
npm install cheerio
如果你查看 JSPro 源代码,你会注意到每个文章标题都是一个包含在类为 entry-title
的 <a></a>
元素中的链接。第 7 行的选择器选择所有文章链接。然后使用 each()
函数遍历所有文章。最后,文章标题和 URL 分别从链接的文本和 href
属性中获取。
结论
本文向你展示了如何在 Node.js 中创建一个简单的网页抓取程序。请注意,这不是抓取网页的唯一方法。还有其他技术,例如使用无头浏览器,它们功能更强大,但可能会影响简单性和/或速度。请关注即将发表的关于 PhantomJS 无头浏览器的文章。
Node.js 网页抓取常见问题 (FAQ)
在 Node.js 中处理动态内容可能有点棘手,因为内容是异步加载的。您可以使用像 Puppeteer 这样的库,它是一个 Node.js 库,提供一个高级 API 来通过 DevTools 协议控制 Chrome 或 Chromium。Puppeteer 默认情况下以无头模式运行,但可以配置为运行完整的(非无头)Chrome 或 Chromium。这允许您通过模拟用户交互来抓取动态内容。
如果网站检测到异常流量,网页抓取有时会导致您的 IP 被封禁。为避免这种情况,您可以使用一些技术,例如轮换您的 IP 地址、使用延迟,甚至使用自动处理这些问题的抓取 API。
要从需要登录的网站抓取数据,您可以使用 Puppeteer。Puppeteer 可以通过填写登录表单并提交来模拟登录过程。登录后,您可以导航到所需的页面并抓取数据。
抓取数据后,您可以使用您选择的数据库的数据库客户端。例如,如果您使用的是 MongoDB,您可以使用 MongoDB Node.js 客户端连接到您的数据库并保存数据。
要从带有分页的网站抓取数据,您可以使用循环来浏览页面。在每次迭代中,您可以从当前页面抓取数据,然后单击“下一页”按钮导航到下一页。
要从带有无限滚动的网站抓取数据,您可以使用 Puppeteer 模拟向下滚动操作。您可以使用循环不断向下滚动,直到不再加载新数据。
错误处理在网页抓取中至关重要。您可以使用 try-catch 块来处理错误。在 catch 块中,您可以记录错误消息,这将帮助您调试问题。
要从使用 AJAX 的网站抓取数据,您可以使用 Puppeteer。Puppeteer 可以等待 AJAX 调用完成,然后抓取数据。
要加快网页抓取速度,您可以使用并行处理等技术,在不同的选项卡中打开多个页面并同时从它们抓取数据。但是,请注意不要用过多的请求来过载网站,因为这可能会导致您的 IP 被封禁。
从使用 CAPTCHA 的网站抓取数据可能具有挑战性。您可以使用像 2Captcha 这样的服务,它们提供一个 API 来解决 CAPTCHA。但是,请记住,在某些情况下,这可能是非法或不道德的。始终尊重网站的服务条款。
以上是node.js中的网络刮擦的详细内容。更多信息请关注PHP中文网其他相关文章!