要取得數據,你必須求助於網路抓取。這篇文章就來介紹如何使用Node和Cheerio抓取網站數據,希望對大家有幫助!
在我們開始之前,你需要遵守當地的法紀法規,不可隨意抓取未經允許公開的資料。
以下是本教學所需的一些東西:
Cheerio 是一個在 Node.js 中解析 HTML 和 XML 的工具,在 GitHub 上非常受歡迎,擁有超過23k 的 star 。
它快速、靈活且易於使用。由於它實作了 JQuery 的子集,如果你已經熟悉 JQuery,那麼很容易開始使用 Cheerio。
Cheerio 和 Web 瀏覽器之間的主要區別在於,cheerio 不產生視覺渲染、載入 CSS、載入外部資源或執行 JavaScript。它只是解析標記並提供用於操作生成的資料結構的 API。這就解釋了為什麼它也非常快——cheerio 文件。
如果你想使用cheerio 來抓取網頁,您需要先使用axios或node-fetch等套件來取得標記。
在此範例中,我們將抓取此Wikipedia 頁面上列出的所有國家和其他司法管轄區的ISO 3166-1 alpha-3 代碼。它位於ISO 3166-1 alpha-3頁面的目前程式碼部分下。
這是國家/司法管轄區清單及其對應程式碼的樣子:
在此步驟中,您將透過在終端機上執行以下命令為您的專案建立目錄。這個指令將會創造一個名為learn-cheerio
. 如果你願意,你可以給它一個不同的名字。
mkdir learn-cheerio
learn-cheerio
成功執行上述命令後,您應該可以看到一個名為 created 的資料夾。
在下一步中,您將在您喜歡的文字編輯器中開啟剛剛建立的目錄並初始化項目。
在此步驟中,您將導航至專案目錄並初始化專案。在您喜歡的文字編輯器中開啟您在上一個步驟中建立的目錄,並透過執行以下命令來初始化專案。
npm init -y
成功執行上述指令將package.json
在專案目錄的根目錄下建立一個檔案。
在下一個步驟中,您將安裝專案依賴項。
在此步驟中,您將透過執行下列命令來安裝專案依賴項。這將需要幾分鐘,所以請耐心等待。
npm i axios cheerio pretty
成功執行上述命令將在欄位package.json
下的檔案中註冊三個依賴項。 dependencies
第一個依賴是axios
,第二個是cheerio
,第三個是pretty
。
axios是一個非常流行的http 用戶端,可以在 node 和瀏覽器中運行。我們需要它,因為cheerio 是一個標記解析器。
为了让 Cheerio 解析标记并抓取您需要的数据,我们需要axios
用于从网站获取标记。如果您愿意,可以使用另一个 HTTP 客户端来获取标记。它不一定是axios
.
pretty是用于美化标记的 npm 包,以便在终端上打印时可读。
在下一部分中,您将检查将从中抓取数据的标记。
在从网页中抓取数据之前,了解页面的 HTML 结构非常重要。
在此步骤中,您将检查要从中抓取数据的网页的 HTML 结构。
导航到Wikipedia 上的ISO 3166-1 alpha-3 代码页面。在“当前代码”部分下,有一个国家列表及其相应的代码。CTRL + SHIFT + I
您可以通过按chrome 上的组合键或右键单击然后选择“检查”选项来打开 DevTools 。
这是我在 chrome DevTools 中的列表:
在下一节中,您将编写用于抓取网页的代码。
在本节中,你将编写用于抓取我们感兴趣的数据的代码。首先运行以下将创建app.js
文件的命令。
touch app.js
成功运行上述命令将app.js
在项目目录的根目录下创建一个文件。
像任何其他 Node 包一样,在开始使用它们之前,你必须首先require axios
、cheerio
和。你可以通过在刚刚创建pretty
的文件顶部添加下面的代码来做到这一点。app.js
const axios = require("axios"); const cheerio = require("cheerio"); const pretty = require("pretty");
在我们编写用于抓取数据的代码之前,我们需要学习cheerio
. 我们将解析下面的标记并尝试操作生成的数据结构。这将帮助我们学习 Cheerio 语法及其最常用的方法。
下面的标记是ul
包含我们元素的li
元素。
const markup = `
将上述变量声明添加到app.js
文件中
cheerio
你可以使用该cheerio.load
方法加载标记。该方法将标记作为参数。它还需要另外两个可选参数。如果你有兴趣,可以在文档中阅读有关它们的更多信息。
下面,我们传递第一个也是唯一需要的参数,并将返回值存储在$
变量中。我们使用该变量是因为cheerio 与Jquery$
的相似性。如果你愿意,可以使用不同的变量名。
将以下代码添加到你的app.js
文件中:
const $ = cheerio.load(markup); console.log(pretty($.html()));
如果你现在通过在终端上app.js
运行命令来执行文件中的代码node app.js
,你应该能够在终端上看到标记。这是我在终端上看到的:
Cheerio 支持大多数常见的 CSS 选择器,例如class
、id
和element
选择器等。在下面的代码中,我们选择带有类的元素fruits__mango
,然后将所选元素记录到控制台。将以下代码添加到你的app.js
文件中。
const mango = $(".fruits__mango"); console.log(mango.html()); // Mango
如果你使用命令执行,上述代码行将Mango
在终端上记录文本。app.js``node app.js
您还可以选择一个元素并获取特定属性,例如class
、id
或所有属性及其对应值。
将以下代码添加到你的app.js
文件中:
const apple = $(".fruits__apple"); console.log(apple.attr("class")); //fruits__apple
上面的代码将登录fruits__apple
终端。fruits__apple
是所选元素的类。
Cheerio 提供了.each
循环遍历多个选定元素的方法。
下面,我们选择所有元素并使用该方法li
循环遍历它们。.each
我们在终端上记录每个列表项的文本内容。
将以下代码添加到你的app.js
文件中。
const listItems = $("li"); console.log(listItems.length); // 2 listItems.each(function (idx, el) { console.log($(el).text()); }); // Mango // Apple
上面的代码会记录2
,也就是列表项的长度,执行完代码后会在终端上显示文字Mango
和。Apple``app.js
Cheerio 提供了一种将元素附加或附加到标记的方法。
该append
方法会将作为参数传递的元素添加到所选元素的最后一个子元素之后。另一方面,prepend
将在选定元素的第一个子元素之前添加传递的元素。
将以下代码添加到你的app.js
文件中:
const ul = $("ul"); ul.append("
在向标记添加和添加元素之后,这是我登录$.html()
终端时看到的内容:
这些是 Cheerio 的基础知识,可以帮助你开始网络抓取。
要从 Wikipedia 抓取我们在本文开头描述的数据,请将以下代码复制并粘贴到app.js
文件中:
// Loading the dependencies. We don't need pretty // because we shall not log html to the terminal const axios = require("axios"); const cheerio = require("cheerio"); const fs = require("fs"); // URL of the page we want to scrape const url = "https://en.wikipedia.org/wiki/ISO_3166-1_alpha-3"; // Async function which scrapes the data async function scrapeData() { try { // Fetch HTML of the page we want to scrape const { data } = await axios.get(url); // Load HTML we fetched in the previous line const $ = cheerio.load(data); // Select all the list items in plainlist class const listItems = $(".plainlist ul li"); // Stores data for all countries const countries = []; // Use .each method to loop through the li we selected listItems.each((idx, el) => { // Object holding data for each country/jurisdiction const country = { name: "", iso3: "" }; // Select the text content of a and span elements // Store the textcontent in the above object country.name = $(el).children("a").text(); country.iso3 = $(el).children("span").text(); // Populate countries array with country data countries.push(country); }); // Logs countries array to the console console.dir(countries); // Write countries array in countries.json file fs.writeFile("coutries.json", JSON.stringify(countries, null, 2), (err) => { if (err) { console.error(err); return; } console.log("Successfully written data to file"); }); } catch (err) { console.error(err); } } // Invoke the above function scrapeData();
通过阅读代码,你了解正在发生的事情吗?如果没有,我现在将详细介绍。我还对每一行代码进行了注释,以帮助你理解。
在上面的代码中,我们需要文件顶部的所有依赖项,app.js
然后我们声明了scrapeData
函数。在函数内部,使用axios
. 然后将我们需要抓取的页面的获取 HTML 加载到cheerio
.
国家/地区列表及其对应iso3
代码嵌套在一个div
具有 . 类的元素中plainlist
。li
元素被选中,然后我们使用该方法循环遍历它们.each
。每个国家的数据都被抓取并存储在一个数组中。
使用命令运行上述代码后node app.js
,将抓取的数据写入countries.json
文件并打印在终端上。这是我在终端上看到的部分内容:
感谢你阅读本文!我们已经介绍了使用cheerio
. 如果你想更深入地了解并完全了解其工作原理,可以前往Cheerio 文档。
更多node相关知识,请访问:nodejs 教程!
以上是聊聊使用Node.js + Cheerio 怎麼進行資料抓取的詳細內容。更多資訊請關注PHP中文網其他相關文章!