核心要點
cheerio
和 request
等模塊來實現。 cheerio
模塊實現了 jQuery 的一個子集,可以從 HTML 字符串構建 DOM 並進行解析,但它可能難以處理結構不良的 HTML。 request
和cheerio
可以構建完整的網頁抓取程序來提取網頁的特定元素,但是處理動態內容、避免被封禁以及處理需要登錄或使用CAPTCHA 的網站會更加複雜,可能需要額外的工具或策略。 網頁抓取程序是通過編程方式訪問網頁並從中提取數據的軟件。由於內容重複等問題,網頁抓取是一個有點爭議的話題。大多數網站所有者更傾向於通過公開可用的 API 訪問其數據。不幸的是,許多網站提供的 API 質量很差,甚至根本沒有 API。這迫使許多開發人員轉向網頁抓取。本文將教你如何在 Node.js 中實現你自己的網頁抓取程序。網頁抓取的第一步是從遠程服務器下載源代碼。在“在 Node.js 中發出 HTTP 請求”中,讀者學習瞭如何使用 request
模塊下載頁面。以下示例快速回顧了在 Node.js 中發出 GET 請求的方法。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
網頁抓取的第二步,也是更困難的一步,是從下載的源代碼中提取數據。在客戶端,使用選擇器 API 或 jQuery 等庫可以輕鬆完成此任務。不幸的是,這些解決方案依賴於可以查詢 DOM 的假設。遺憾的是,Node.js 沒有提供 DOM。或者有嗎?
Cheerio 模塊
雖然 Node.js 沒有內置 DOM,但有一些模塊可以從 HTML 源代碼字符串構建 DOM。兩個流行的 DOM 模塊是 cheerio
和 jsdom
。本文重點介紹 cheerio
,可以使用以下命令安裝:
npm install cheerio
cheerio
模塊實現了 jQuery 的一個子集,這意味著許多開發人員可以快速上手。事實上,cheerio
與 jQuery 非常相似,你很容易發現自己試圖使用 cheerio
中未實現的 jQuery 函數。以下示例展示瞭如何使用 cheerio
解析 HTML 字符串。第一行將 cheerio
導入程序。 html
變量保存要解析的 HTML 片段。在第 3 行,使用 cheerio
解析 HTML。結果賦值給 $
變量。選擇美元符號是因為它傳統上用於 jQuery。第 4 行使用 CSS 樣式選擇器選擇 <code><ul>
元素。最後,使用 html()
方法打印列表的內部 HTML。
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
cheerio
正在積極開發中,並且一直在改進。但是,它仍然有一些限制。 cheerio
最令人沮喪的方面是 HTML 解析器。 HTML 解析是一個難題,並且有很多網頁包含不良的 HTML。雖然 cheerio
不會在這些頁面上崩潰,但你可能會發現自己無法選擇元素。這使得難以確定錯誤在於你的選擇器還是頁面本身。
抓取 JSPro
以下示例結合 request
和 cheerio
來構建一個完整的網頁抓取程序。該示例抓取程序提取 JSPro 首頁上所有文章的標題和 URL。前兩行將所需的模塊導入示例。第 3 到第 5 行下載 JSPro 首頁的源代碼。然後將源代碼傳遞給 cheerio
進行解析。
npm install cheerio
如果你查看 JSPro 源代碼,你會注意到每個文章標題都是一個包含在類為 entry-title
的 <a></a>
元素中的鏈接。第 7 行的選擇器選擇所有文章鏈接。然後使用 each()
函數遍歷所有文章。最後,文章標題和 URL 分別從鏈接的文本和 href
屬性中獲取。
結論
本文向你展示瞭如何在 Node.js 中創建一個簡單的網頁抓取程序。請注意,這不是抓取網頁的唯一方法。還有其他技術,例如使用無頭瀏覽器,它們功能更強大,但可能會影響簡單性和/或速度。請關注即將發表的關於 PhantomJS 無頭瀏覽器的文章。
Node.js 網頁抓取常見問題 (FAQ)
在 Node.js 中處理動態內容可能有點棘手,因為內容是異步加載的。您可以使用像 Puppeteer 這樣的庫,它是一個 Node.js 庫,提供一個高級 API 來通過 DevTools 協議控制 Chrome 或 Chromium。 Puppeteer 默認情況下以無頭模式運行,但可以配置為運行完整的(非無頭)Chrome 或 Chromium。這允許您通過模擬用戶交互來抓取動態內容。
如果網站檢測到異常流量,網頁抓取有時會導致您的 IP 被封禁。為避免這種情況,您可以使用一些技術,例如輪換您的 IP 地址、使用延遲,甚至使用自動處理這些問題的抓取 API。
要從需要登錄的網站抓取數據,您可以使用 Puppeteer。 Puppeteer 可以通過填寫登錄表單並提交來模擬登錄過程。登錄後,您可以導航到所需的頁面並抓取數據。
抓取數據後,您可以使用您選擇的數據庫的數據庫客戶端。例如,如果您使用的是 MongoDB,您可以使用 MongoDB Node.js 客戶端連接到您的數據庫並保存數據。
要從帶有分頁的網站抓取數據,您可以使用循環來瀏覽頁面。在每次迭代中,您可以從當前頁面抓取數據,然後單擊“下一頁”按鈕導航到下一頁。
要從帶有無限滾動的網站抓取數據,您可以使用 Puppeteer 模擬向下滾動操作。您可以使用循環不斷向下滾動,直到不再加載新數據。
錯誤處理在網頁抓取中至關重要。您可以使用 try-catch 塊來處理錯誤。在 catch 塊中,您可以記錄錯誤消息,這將幫助您調試問題。
要從使用 AJAX 的網站抓取數據,您可以使用 Puppeteer。 Puppeteer 可以等待 AJAX 調用完成,然後抓取數據。
要加快網頁抓取速度,您可以使用並行處理等技術,在不同的選項卡中打開多個頁面並同時從它們抓取數據。但是,請注意不要用過多的請求來過載網站,因為這可能會導致您的 IP 被封禁。
從使用 CAPTCHA 的網站抓取數據可能具有挑戰性。您可以使用像 2Captcha 這樣的服務,它們提供一個 API 來解決 CAPTCHA。但是,請記住,在某些情況下,這可能是非法或不道德的。始終尊重網站的服務條款。
以上是node.js中的網絡刮擦的詳細內容。更多資訊請關注PHP中文網其他相關文章!