Node.js编写爬虫的基本思路及抓取百度图片的实例分享

首页

web前端

js教程

Node.js编写爬虫的基本思路及抓取百度图片的实例分享_node.js

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 16, 2016 pm 03:10 PM

javascript js node node.js 爬虫

其实写爬虫的思路十分简单：

按照一定的规律发送 HTTP 请求获得页面 HTML 源码（必要时需要加上一定的 HTTP 头信息，比如 cookie 或 referer 之类）
利用正则匹配或第三方模块解析 HTML 代码，提取有效数据
将数据持久化到数据库中

但是真正写起这个爬虫来，我还是遇到了很多的问题（和自己的基础不扎实也有很大的关系，node.js 并没有怎么认真的学过）。主要还是 node.js 的异步和回调知识没有完全掌握，导致在写代码的过程中走了很多弯路。

模块化

模块化对于 node.js 程序是至关重要的，不能像原来写 PHP 那样所有的代码都扔到一个文件里（当然这只是我个人的恶习），所以一开始就要分析这个爬虫需要实现的功能，并大致的划分了三个模块。

主程序，调用爬虫模块和持久化模块实现完整的爬虫功能
爬虫模块，根据传来的数据发送请求，解析 HTML 并提取有用数据，返回一个对象
持久化模块，接受一个对象，将其中的内容储存到数据库中
模块化也带来了困扰了我一个下午的问题：模块之间的异步调用导致数据错误。其实我至今都不太明白问题到底出在哪儿，鉴于脚本语言不那么方便的调试功能，暂时还没有深入研究。

另外一点需要注意的是，模块化时尽量慎用全局对象来储存数据，因为可能你这个模块的一个功能还没有结束，这个全局变量已经被修改了。

Control Flow

这个东西很难翻译，直译叫控制流（吗）。众所周知，node.js 的核心思想就是异步，但是异步多了就会产生好几层嵌套，代码实在难看。这个时候，你需要借助一些 Control Flow 模块来重新整理你的逻辑。在这里就要推荐开发社区十分活跃，用起来也很顺手的 async.js（https://github.com/caolan/async/）。

async 提供了很多实用的方法，我在写爬虫时主要用到了

async.eachSeries(arr, fn, callback) 依次把 arr 中的每一个元素传给 fn，若 fn 回调没有返回错误对象就继续传下一个，否则把错误对象传给 callback，循环结束
async.parallel(fn[, fn] , callback) 当所有的 fn 都执行完成后执行 callback

这些控制流方法给爬虫的开发工作带来了很大的方便。考虑这么一个应用场景，你需要把若干条数据插入数据库（属于同一个学生），你需要在所有数据都插入完成后才能返回结果，那么如何保证所有的插入操作都结束了呢？只能是层层回调保证，如果用 async.parallel 就方便多了。

这里再多提一句，本来保证所有的插入都完成这个操作可以在 SQL 层实现，即 transaction，但是 node-mysql 截止我使用的时候还是没有很好的支持 transaction，所以只有自己手动用代码保证了。

解析 HTML

在解析过程中也遇到一些问题，这里一并记录下来。

最基本的发送 HTTP 请求获得 HTML 代码，使用 node 自带的 http.request 功能即可。如果是爬简单的内容，比如获得某个指定 id 元素中的内容（常见于抓去商品价格），那么正则足以完成任务。但是对于复杂的页面，尤其是数据项较多的页面，使用 DOM 会更加方便高效。

而 node.js 最好的 DOM 实现非 cheerio（https://github.com/MatthewMueller/cheerio）莫属了。其实 cheerio 应该算是 jQuery 的一个针对 DOM 操作优化和精简的子集，包含了 DOM 操作的大部分内容，去除了其它不必要的内容。使用 cheerio 你就可以像用普通 jQuery 选择器那样选择你需要的内容。

下载图片
在爬数据时，我们可能还需要下载图片。其实下载图片的方式和普通的网页没有太大的区别，但是有一点让我吃了苦头。

注意下面代码中言辞激烈的注释，那就是我年轻时犯下的错误……

var req = http.request(options, function(res){

  //初始化数据！！！
  var binImage = '';

  res.setEncoding('binary');
  res.on('data', function(chunk){
   binImage += chunk;
  });

  res.on('end', function(){

   if (!binImage) {
    console.log('image data is null');
    return null;
   }

   fs.writeFile(imageFolder + filename, binImage, 'binary', function(err){
    if (err) {
     console.log('image writing error:' + err.message);
     return null;
    }
    else{
     console.log('image ' + filename + ' saved');
     return filename;
    }
   });
  });

  res.on('error', function(e){
   console.log('image downloading response error:' + e.message);
   return null;
  });
 });

 req.end();

登录后复制

GBK 转码
另外一个值得说明的问题就是 node.js 爬虫在爬 GBK 编码内容时转码的问题，其实这个问题很好解决，但是新手可能会绕弯路。这里就把源码全部奉上：

var req = http.request(options, function(res) {
  res.setEncoding('binary');
  res.on('data', function (chunk) {
  html += chunk;
  });

  res.on('end', function(){
  //转换编码
  html = iconv.decode(html, 'gbk');
  });
 });

 req.end();

登录后复制

这里我使用的转码库是 iconv-lite（https://github.com/ashtuchkin/iconv-lite），完美支持 GBK 和 GB2312 等双字节编码。

实例：爬虫批量下载百度图片

var fs = require('fs'), 
 path = require('path'), 
 util = require('util'), // 以上为Nodejs自带依赖包 
 request = require('request'); // 需要npm install的包 
 
// main函数，使用 node main执行即可 
patchPreImg(); 
 
// 批量处理图片 
function patchPreImg() { 
 var tag1 = '摄影', tag2 = '国家地理', 
  url = 'http://image.baidu.com/data/imgs&#63;pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=', 
  url = util.format(url, 0, tag1, tag2), 
  url = encodeURI(url), 
  dir = 'D:/downloads/images/', 
  dir = path.join(dir, tag1, tag2), 
  dir = mkdirSync(dir); 
 
 request(url, function(error, response, html) { 
  var data = JSON.parse(html); 
  if (data && Array.isArray(data.imgs)) { 
   var imgs = data.imgs; 
   imgs.forEach(function(img) { 
    if (Object.getOwnPropertyNames(img).length > 0) { 
     var desc = img.desc || ((img.owner && img.owner.userName) + img.column); 
     desc += '(' + img.id + ')'; 
     var downloadUrl = img.downloadUrl || img.objUrl; 
     downloadImg(downloadUrl, dir, desc); 
    } 
   }); 
  } 
 }); 
} 
 
// 循环创建目录 
function mkdirSync(dir) { 
 var parts = dir.split(path.sep); 
 for (var i = 1; i <= parts.length; i++) { 
  dir = path.join.apply(null, parts.slice(0, i)); 
  fs.existsSync(dir) || fs.mkdirSync(dir); 
 } 
 return dir; 
} 
 
var index = 1; 
// 开始下载图片，并log统计日志 
function downloadImg(url, dir, desc) { 
 var fileType = 'jpg'; 
 if (url.match(/\.(\w+)$/)) fileType = RegExp.$1; 
 desc += '.' + fileType; 
 var options = { 
  url: url, 
  headers: { 
   Host: 'f.hiphotos.baidu.com', 
   Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;' 
  } 
 }; 
 var startTime = new Date().getTime(); 
 request(options) 
  .on('response', function() { 
   var endTime = new Date().getTime(); 
   console.log('Downloading...%s.. %s, 耗时: %ss', index++, desc, (endTime - startTime) / 1000); 
  }) 
  .pipe(fs.createWriteStream(path.join(dir, desc))); 
}

登录后复制

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7466

CakePHP 教程

1376

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

推荐：优秀JS开源人脸检测识别项目 Apr 03, 2024 am 11:55 AM

人脸检测识别技术已经是一个比较成熟且应用广泛的技术。而目前最为广泛的互联网应用语言非JS莫属，在Web前端实现人脸检测识别相比后端的人脸识别有优势也有弱势。优势包括减少网络交互、实时识别，大大缩短了用户等待时间，提高了用户体验；弱势是：受到模型大小限制，其中准确率也有限。如何在web端使用js实现人脸检测呢？为了实现Web端人脸识别，需要熟悉相关的编程语言和技术，如JavaScript、HTML、CSS、WebRTC等。同时还需要掌握相关的计算机视觉和人工智能技术。值得注意的是，由于Web端的计

Pi Node教学：什么是Pi节点？如何安装和设定Pi Node？ Mar 05, 2025 pm 05:57 PM

PiNetwork节点详解及安装指南本文将详细介绍PiNetwork生态系统中的关键角色——Pi节点，并提供安装和配置的完整步骤。Pi节点在PiNetwork区块链测试网推出后，成为众多先锋积极参与测试的重要环节，为即将到来的主网发布做准备。如果您还不了解PiNetwork，请参考Pi币是什么？上市价格多少？Pi用途、挖矿及安全性分析。什么是PiNetwork？PiNetwork项目始于2019年，拥有其专属加密货币Pi币。该项目旨在创建一个人人可参与

PHP与JS开发技巧：掌握绘制股票蜡烛图的方法 Dec 18, 2023 pm 03:39 PM

随着互联网金融的迅速发展，股票投资已经成为了越来越多人的选择。而在股票交易中，蜡烛图是一种常用的技术分析方法，它能够显示股票价格的变化趋势，帮助投资者做出更加精准的决策。本文将通过介绍PHP和JS的开发技巧，带领读者了解如何绘制股票蜡烛图，并提供具体的代码示例。一、了解股票蜡烛图在介绍如何绘制股票蜡烛图之前，我们首先需要了解一下什么是蜡烛图。蜡烛图是由日本人

简易JavaScript教程：获取HTTP状态码的方法 Jan 05, 2024 pm 06:08 PM

JavaScript教程：如何获取HTTP状态码，需要具体代码示例前言：在Web开发中，经常会涉及到与服务器进行数据交互的场景。在与服务器进行通信时，我们经常需要获取返回的HTTP状态码来判断操作是否成功，根据不同的状态码来进行相应的处理。本篇文章将教你如何使用JavaScript获取HTTP状态码，并提供一些实用的代码示例。使用XMLHttpRequest

高效的Java爬虫实战：网页数据抓取技巧分享 Jan 09, 2024 pm 12:29 PM

Java爬虫实战：如何高效抓取网页数据引言：随着互联网的快速发展，大量有价值的数据被存储在各种网页中。而要获取这些数据，往往需要手动访问每个网页并逐一提取信息，这无疑是一项繁琐且耗时的工作。为了解决这个问题，人们开发了各种爬虫工具，其中Java爬虫是最常用的之一。本文将带领读者了解如何使用Java编写高效的网页爬虫，并通过具体代码示例来展示实践。一、爬虫的基

js和vue的关系 Mar 11, 2024 pm 05:21 PM

js和vue的关系：1、JS作为Web开发基石；2、Vue.js作为前端框架的崛起；3、JS与Vue的互补关系；4、JS与Vue的实践应用。

如何在JavaScript中获取HTTP状态码的简单方法 Jan 05, 2024 pm 01:37 PM

JavaScript中的HTTP状态码获取方法简介：在进行前端开发中，我们常常需要处理与后端接口的交互，而HTTP状态码就是其中非常重要的一部分。了解和获取HTTP状态码有助于我们更好地处理接口返回的数据。本文将介绍使用JavaScript获取HTTP状态码的方法，并提供具体代码示例。一、什么是HTTP状态码HTTP状态码是指当浏览器向服务器发起请求时，服务

JS 的 AI 时代来了！ Apr 08, 2024 am 09:10 AM

JS-Torch简介JS-Torch是一种深度学习JavaScript库，其语法与PyTorch非常相似。它包含一个功能齐全的张量对象（可与跟踪梯度），深度学习层和函数，以及一个自动微分引擎。JS-Torch适用于在JavaScript中进行深度学习研究，并提供了许多方便的工具和函数来加速深度学习开发。图片PyTorch是一个开源的深度学习框架，由Meta的研究团队开发和维护。它提供了丰富的工具和库，用于构建和训练神经网络模型。PyTorch的设计理念是简单和灵活，易于使用，它的动态计算图特性使

See all articles

Node.js编写爬虫的基本思路及抓取百度图片的实例分享_node.js

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题