使用Node.js如何實作資訊爬蟲（詳細教學）-js教程-PHP中文網

首頁

web前端

js教程

使用Node.js如何實作資訊爬蟲（詳細教學）

亚连

Jun 13, 2018 pm 02:15 PM

這篇文章主要介紹了使用 Node.js 開發資訊爬蟲流程,爬蟲流程概括下來就是把目標網站的HTML下載到本地再進行資料擷取。具體內容詳情大家參考下本文

最近專案需要一些資訊，因為專案是用Node.js 來寫的，所以就自然地用Node.js 來寫爬蟲了

專案地址：github.com/mrtanweijie… ，專案裡面爬取了Readhub 、開源中國、開發者頭條、 36Kr 這幾個網站的資訊內容，暫時沒有對多頁面進行處理，因為每天爬蟲都會跑一次，現在每次獲取到最新的就可以滿足需求了，後期再進行完善

爬蟲流程概括下來就是把目標網站的HTML下載到本地再進行資料擷取。

一、下載頁面

Node.js 有很多http請求函式庫，這裡使用request ，主要程式碼如下：

requestDownloadHTML () {
 const options = {
  url: this.url,
  headers: {
  &#39;User-Agent&#39;: this.randomUserAgent()
  }
 }
 return new Promise((resolve, reject) => {
  request(options, (err, response, body) => {
  if (!err && response.statusCode === 200) {
   return resolve(body)
  } else {
   return reject(err)
  }
  })
 })
 }

登入後複製

使用Promise 來包裝，方便後面使用的時候用上async/await 。因為有很多網站是在客戶端渲染的，所以下載到的頁面不一定包含想要的HTML內容，我們可以使用 Google 的 puppeteer 來下載客戶端渲染的網站頁面。眾所周知的原因，在npm i 的時候puppeteer 可能因為需要下載Chrome核心導致安裝會失敗，多試幾次就好了：）

puppeteerDownloadHTML () {
 return new Promise(async (resolve, reject) => {
  try {
  const browser = await puppeteer.launch({ headless: true })
  const page = await browser.newPage()
  await page.goto(this.url)
  const bodyHandle = await page.$(&#39;body&#39;)
  const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle)
  return resolve(bodyHTML)
  } catch (err) {
  console.log(err)
  return reject(err)
  }
 })
 }

登入後複製

當然客戶端渲染的頁面最好是直接使用介面請求的方式，這樣後面的HTML解析都不需要了，進行一下簡單的封裝，然後就可以像這樣使用了： #滑稽：）

await new Downloader(&#39;http://36kr.com/newsflashes&#39;, DOWNLOADER.puppeteer).downloadHTML()

登入後複製

2、HTML內容提取

HTML內容提取當然是使用神器cheerio 了， cheerio 暴露了和jQuery 一樣的接口，用起來非常簡單。瀏覽器開啟頁面F12 查看擷取的頁面元素節點，然後根據需求來擷取內容即可

readHubExtract () {
 let nodeList = this.$(&#39;#itemList&#39;).find(&#39;.enableVisited&#39;)
 nodeList.each((i, e) => {
  let a = this.$(e).find(&#39;a&#39;)
  this.extractData.push(
  this.extractDataFactory(
   a.attr(&#39;href&#39;),
   a.text(),
   &#39;&#39;,
   SOURCECODE.Readhub
  )
  )
 })
 return this.extractData
 }

登入後複製

#三、定時任務

cron 每天跑一跑 
function job () {
 let cronJob = new cron.CronJob({
 cronTime: cronConfig.cronTime,
 onTick: () => {
  spider()
 },
 start: false
 })
 cronJob.start()
}

登入後複製

#四、資料持久化

資料持久化理論上應該不屬於爬蟲關心的範圍，用mongoose ，創建Model

import mongoose from &#39;mongoose&#39;
const Schema = mongoose.Schema
const NewsSchema = new Schema(
 {
 title: { type: &#39;String&#39;, required: true },
 url: { type: &#39;String&#39;, required: true },
 summary: String,
 recommend: { type: Boolean, default: false },
 source: { type: Number, required: true, default: 0 },
 status: { type: Number, required: true, default: 0 },
 createdTime: { type: Date, default: Date.now }
 },
 {
 collection: &#39;news&#39;
 }
)
export default mongoose.model(&#39;news&#39;, NewsSchema)

登入後複製

基本操作

import { OBJ_STATUS } from &#39;../../Constants&#39;
class BaseService {
 constructor (ObjModel) {
 this.ObjModel = ObjModel
 }

 saveObject (objData) {
 return new Promise((resolve, reject) => {
  this.ObjModel(objData).save((err, result) => {
  if (err) {
   return reject(err)
  }
  return resolve(result)
  })
 })
 }
}
export default BaseService

登入後複製

資訊

import BaseService from &#39;./BaseService&#39;
import News from &#39;../models/News&#39;
class NewsService extends BaseService {}
export default new NewsService(News)

登入後複製

愉快地保存資料

await newsService.batchSave(newsListTem)

登入後複製

更多內容到Github把專案clone下來看就好了。

總結

上面是我整理給大家的，希望今後會對大家有幫助。

使用react如何建立d3力導向圖（詳細教學）

使用nodejs如何實作即時通訊

關於axios有關Vue.use方面的問題

以上是使用Node.js如何實作資訊爬蟲（詳細教學）的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7754

Java教學

1643

CakePHP 教程

1399

Laravel 教程

1293

PHP教程

1234

Related knowledge

前端熱敏紙小票打印遇到亂碼問題怎麼辦？ Apr 04, 2025 pm 02:42 PM

前端熱敏紙小票打印的常見問題與解決方案在前端開發中，小票打印是一個常見的需求。然而，很多開發者在實...

神秘的JavaScript：它的作用以及為什麼重要 Apr 09, 2025 am 12:07 AM

JavaScript是現代Web開發的基石，它的主要功能包括事件驅動編程、動態內容生成和異步編程。 1)事件驅動編程允許網頁根據用戶操作動態變化。 2)動態內容生成使得頁面內容可以根據條件調整。 3)異步編程確保用戶界面不被阻塞。 JavaScript廣泛應用於網頁交互、單頁面應用和服務器端開發，極大地提升了用戶體驗和跨平台開發的靈活性。