在Node.js中使用cheerio制作简单的网页爬虫（详细教程）-js教程-PHP中文网

在Node.js中使用cheerio制作简单的网页爬虫（详细教程）

亚连

发布： 2018-06-02 14:30:03

原创

3493 人浏览过

本篇文章主要介绍了Node.js 利用cheerio制作简单的网页爬虫示例，现在分享给大家，也给大家做个参考。

本文介绍了Node.js 利用cheerio制作简单的网页爬虫示例，分享给大家，具有如下：

1. 目标

完成对网站的标题信息获取
将获取到的信息输出在一个新文件
工具: cheerio，使用npm下载npm install cheerio
cheerio的API使用方法和jQuery的使用方法基本一致
如果熟练使用jQuery，那么cheerio将会很快上手

2. 代码部分

介绍: 获取segment fault页面的列表标题，将获取到的标题列表编号，最终输出到pageTitle.txt文件里

const https = require(&#39;https&#39;);
const fs = require(&#39;fs&#39;);
const cheerio = require(&#39;cheerio&#39;);
const url = &#39;https://segmentfault.com/&#39;;

https.get(url, (res) => {
  let html = &#39;&#39;;
  res.on(&#39;data&#39;, (data) => {
    html += data;
  });
  res.on(&#39;end&#39;, () => {
    getPageTitle(html);
  });
}).on(&#39;error&#39;, () => {
  console.log(&#39;获取网页信息错误&#39;);
});

function getPageTitle(html) {
  const $ = cheerio.load(html);
  let chapters = $(&#39;.news__item-title&#39;);
  let data = [];
  let index = 0;
  let fileName = &#39;pageTitle.txt&#39;;
  for (let i = 0; i < chapters.length; i++) {
    let chapterTitle = $(chapters[i]).find(&#39;a&#39;).text().trim();
    index++;
    data.push(`\n${index}, ${chapterTitle}`);
  }
  fs.writeFile(fileName, data, &#39;utf8&#39;, (err) => {
    if (err) {
      console.log(&#39;fs文件系统创建新文件失败&#39;, err);
    }
    console.log(`已成功将获取到的标题放入新文件${fileName}文件中`)
  })
}

登录后复制

上面是我整理给大家的，希望今后会对大家有帮助。

聊聊JS动画库 Velocity.js的使用

vue toggle做一个点击切换class(实例讲解)

Vue2.0 给Tab标签页和页面切换过渡添加样式的方法

以上是在Node.js中使用cheerio制作简单的网页爬虫（详细教程）的详细内容。更多信息请关注PHP中文网其他相关文章！