node.js中的網絡刮擦-js教程-PHP中文網

Web Scraping in Node.js

核心要點

Node.js 的網頁抓取涉及從遠程服務器下載源代碼並從中提取數據，可以使用 cheerio 和 request 等模塊來實現。
cheerio 模塊實現了 jQuery 的一個子集，可以從 HTML 字符串構建 DOM 並進行解析，但它可能難以處理結構不良的 HTML。
通過結合request 和cheerio 可以構建完整的網頁抓取程序來提取網頁的特定元素，但是處理動態內容、避免被封禁以及處理需要登錄或使用CAPTCHA 的網站會更加複雜，可能需要額外的工具或策略。

網頁抓取程序是通過編程方式訪問網頁並從中提取數據的軟件。由於內容重複等問題，網頁抓取是一個有點爭議的話題。大多數網站所有者更傾向於通過公開可用的 API 訪問其數據。不幸的是，許多網站提供的 API 質量很差，甚至根本沒有 API。這迫使許多開發人員轉向網頁抓取。本文將教你如何在 Node.js 中實現你自己的網頁抓取程序。網頁抓取的第一步是從遠程服務器下載源代碼。在“在 Node.js 中發出 HTTP 請求”中，讀者學習瞭如何使用 request 模塊下載頁面。以下示例快速回顧了在 Node.js 中發出 GET 請求的方法。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

登入後複製

網頁抓取的第二步，也是更困難的一步，是從下載的源代碼中提取數據。在客戶端，使用選擇器 API 或 jQuery 等庫可以輕鬆完成此任務。不幸的是，這些解決方案依賴於可以查詢 DOM 的假設。遺憾的是，Node.js 沒有提供 DOM。或者有嗎？

Cheerio 模塊

雖然 Node.js 沒有內置 DOM，但有一些模塊可以從 HTML 源代碼字符串構建 DOM。兩個流行的 DOM 模塊是 cheerio 和 jsdom。本文重點介紹 cheerio，可以使用以下命令安裝：

npm install cheerio

登入後複製

cheerio 模塊實現了 jQuery 的一個子集，這意味著許多開發人員可以快速上手。事實上，cheerio 與 jQuery 非常相似，你很容易發現自己試圖使用 cheerio 中未實現的 jQuery 函數。以下示例展示瞭如何使用 cheerio 解析 HTML 字符串。第一行將 cheerio 導入程序。 html 變量保存要解析的 HTML 片段。在第 3 行，使用 cheerio 解析 HTML。結果賦值給 $ 變量。選擇美元符號是因為它傳統上用於 jQuery。第 4 行使用 CSS 樣式選擇器選擇 <code><ul> 元素。最後，使用 html() 方法打印列表的內部 HTML。

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

登入後複製

限制

cheerio 正在積極開發中，並且一直在改進。但是，它仍然有一些限制。 cheerio 最令人沮喪的方面是 HTML 解析器。 HTML 解析是一個難題，並且有很多網頁包含不良的 HTML。雖然 cheerio 不會在這些頁面上崩潰，但你可能會發現自己無法選擇元素。這使得難以確定錯誤在於你的選擇器還是頁面本身。

抓取 JSPro

以下示例結合 request 和 cheerio 來構建一個完整的網頁抓取程序。該示例抓取程序提取 JSPro 首頁上所有文章的標題和 URL。前兩行將所需的模塊導入示例。第 3 到第 5 行下載 JSPro 首頁的源代碼。然後將源代碼傳遞給 cheerio 進行解析。

npm install cheerio

登入後複製

如果你查看 JSPro 源代碼，你會注意到每個文章標題都是一個包含在類為 entry-title 的 <a></a> 元素中的鏈接。第 7 行的選擇器選擇所有文章鏈接。然後使用 each() 函數遍歷所有文章。最後，文章標題和 URL 分別從鏈接的文本和 href 屬性中獲取。

結論

本文向你展示瞭如何在 Node.js 中創建一個簡單的網頁抓取程序。請注意，這不是抓取網頁的唯一方法。還有其他技術，例如使用無頭瀏覽器，它們功能更強大，但可能會影響簡單性和/或速度。請關注即將發表的關於 PhantomJS 無頭瀏覽器的文章。

Node.js 網頁抓取常見問題 (FAQ)

如何在 Node.js 網頁抓取中處理動態內容？

在 Node.js 中處理動態內容可能有點棘手，因為內容是異步加載的。您可以使用像 Puppeteer 這樣的庫，它是一個 Node.js 庫，提供一個高級 API 來通過 DevTools 協議控制 Chrome 或 Chromium。 Puppeteer 默認情況下以無頭模式運行，但可以配置為運行完整的（非無頭）Chrome 或 Chromium。這允許您通過模擬用戶交互來抓取動態內容。