node.js中的网络刮擦-js教程-PHP中文网

Web Scraping in Node.js

核心要点

Node.js 的网页抓取涉及从远程服务器下载源代码并从中提取数据，可以使用 cheerio 和 request 等模块来实现。
cheerio 模块实现了 jQuery 的一个子集，可以从 HTML 字符串构建 DOM 并进行解析，但它可能难以处理结构不良的 HTML。
通过结合 request 和 cheerio 可以构建完整的网页抓取程序来提取网页的特定元素，但是处理动态内容、避免被封禁以及处理需要登录或使用 CAPTCHA 的网站会更加复杂，可能需要额外的工具或策略。

网页抓取程序是通过编程方式访问网页并从中提取数据的软件。由于内容重复等问题，网页抓取是一个有点争议的话题。大多数网站所有者更倾向于通过公开可用的 API 访问其数据。不幸的是，许多网站提供的 API 质量很差，甚至根本没有 API。这迫使许多开发人员转向网页抓取。本文将教你如何在 Node.js 中实现你自己的网页抓取程序。网页抓取的第一步是从远程服务器下载源代码。在“在 Node.js 中发出 HTTP 请求”中，读者学习了如何使用 request 模块下载页面。以下示例快速回顾了在 Node.js 中发出 GET 请求的方法。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

登录后复制

网页抓取的第二步，也是更困难的一步，是从下载的源代码中提取数据。在客户端，使用选择器 API 或 jQuery 等库可以轻松完成此任务。不幸的是，这些解决方案依赖于可以查询 DOM 的假设。遗憾的是，Node.js 没有提供 DOM。或者有吗？

Cheerio 模块

虽然 Node.js 没有内置 DOM，但有一些模块可以从 HTML 源代码字符串构建 DOM。两个流行的 DOM 模块是 cheerio 和 jsdom。本文重点介绍 cheerio，可以使用以下命令安装：

npm install cheerio

登录后复制

cheerio 模块实现了 jQuery 的一个子集，这意味着许多开发人员可以快速上手。事实上，cheerio 与 jQuery 非常相似，你很容易发现自己试图使用 cheerio 中未实现的 jQuery 函数。以下示例展示了如何使用 cheerio 解析 HTML 字符串。第一行将 cheerio 导入程序。html 变量保存要解析的 HTML 片段。在第 3 行，使用 cheerio 解析 HTML。结果赋值给 $ 变量。选择美元符号是因为它传统上用于 jQuery。第 4 行使用 CSS 样式选择器选择 <code><ul> 元素。最后，使用 html() 方法打印列表的内部 HTML。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

登录后复制

限制

cheerio 正在积极开发中，并且一直在改进。但是，它仍然有一些限制。cheerio 最令人沮丧的方面是 HTML 解析器。HTML 解析是一个难题，并且有很多网页包含不良的 HTML。虽然 cheerio 不会在这些页面上崩溃，但你可能会发现自己无法选择元素。这使得难以确定错误在于你的选择器还是页面本身。

抓取 JSPro

以下示例结合 request 和 cheerio 来构建一个完整的网页抓取程序。该示例抓取程序提取 JSPro 首页上所有文章的标题和 URL。前两行将所需的模块导入示例。第 3 到第 5 行下载 JSPro 首页的源代码。然后将源代码传递给 cheerio 进行解析。

npm install cheerio

登录后复制

如果你查看 JSPro 源代码，你会注意到每个文章标题都是一个包含在类为 entry-title 的 <a></a> 元素中的链接。第 7 行的选择器选择所有文章链接。然后使用 each() 函数遍历所有文章。最后，文章标题和 URL 分别从链接的文本和 href 属性中获取。

结论

本文向你展示了如何在 Node.js 中创建一个简单的网页抓取程序。请注意，这不是抓取网页的唯一方法。还有其他技术，例如使用无头浏览器，它们功能更强大，但可能会影响简单性和/或速度。请关注即将发表的关于 PhantomJS 无头浏览器的文章。

Node.js 网页抓取常见问题 (FAQ)

如何在 Node.js 网页抓取中处理动态内容？

在 Node.js 中处理动态内容可能有点棘手，因为内容是异步加载的。您可以使用像 Puppeteer 这样的库，它是一个 Node.js 库，提供一个高级 API 来通过 DevTools 协议控制 Chrome 或 Chromium。Puppeteer 默认情况下以无头模式运行，但可以配置为运行完整的（非无头）Chrome 或 Chromium。这允许您通过模拟用户交互来抓取动态内容。