首頁 web前端 js教程 使用Node.js爬蟲如何實現網頁請求

使用Node.js爬蟲如何實現網頁請求

Jun 12, 2018 pm 02:54 PM
node.js

本篇文章主要介紹了淺談Node.js爬蟲之網頁請求模組,現在分享給大家,也給大家做個參考。

本文介紹了Node.js爬蟲之網頁請求模組,分享給大家,具體如下:

#註:如您下載最新的nodegrass版本,由於部分方法已經更新,本文的例子已經不再適應,詳細請查看開源位址中的範例。

一、為什麼我要寫這樣一個模組?

源自於筆者想使用Node.js寫一個爬蟲,雖然Node.js官方API提供的請求遠端資源的方法已經非常簡便,具體參考

#http:// nodejs.org/api/http.html 其中對於Http的請求提供了,http.get(options, callback)和http.request(options, callback)兩個方法,

看方法便知,get方法用於get方式的請求,而request方法提供更多的參數,例如其它請求方式,請求主機的連接埠等等。對於Https的請求於Http類似。一個最簡單的例子:

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});
登入後複製

對於上述程式碼,我們無非就是想請求遠端主機,得到回應訊息,例如回應狀態,回應頭,回應主體內容。其中get方法的第二個參數是一個回調函數,我們異步的獲取響應信息,然後,在該回調函數中,res對象又監聽data,on方法中第二個參數又是一個回調,而你得到d (你要求到的回應訊息)後,很可能在對它進行操作的時候再次引入回調,一層層下去,最後就暈了。 。 。對於非同步方式的編程,對於一些習慣同步方式寫代碼的同學是非常糾結的,當然國內外已經對此提供了一些非常優秀的同步類庫,例如老趙的Wind.js......好像有點扯遠了。其實,我們呼叫get最終要得到的無非就是回應訊息,而不關心res.on這樣的監聽過程,因為太懶惰。不想每次都res.on('data',func),於是誕生了今天我要介紹的nodegrass。

二、nodegrass請求資源,像Jquery的$.get(url,func)

一個最簡單的例子:

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});
登入後複製

咋一看,和官方原來的get沒啥區別,確實差不多=。 =!只不過少了一層res.on('data',func)的事件監聽回呼而已。不管你信不信,反正我看上去感覺舒服多了,第二個參數同樣是一個回調函數,其中的參數data是響應主體內容,status是響應狀態,headers是響應頭。得到回應內容,我們就可以對得到的資源提取任何我們感興趣的資訊啦。當然這個例子中,只是簡單的列印的控制台而已。第三個參數是字元編碼,目前Node.js不支援gbk,這裡nodegrass內部引用了iconv-lite進行了處理,所以,如果你要求的網頁編碼是gbk的,例如百度。只要加上這個參數就行了。

那麼對於https的請求呢?如果是官方api,你得引入https模組,但是請求的get方法等和http類似,於是nodegrass順便把他們整合在一塊了。看範例:

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});
登入後複製

nodegrass會根據url自動辨識是http還是https,當然你的url必須得有,不能只寫www.baidu.com/而需要http://www.baidu.com/ 。

對於post的請求,nodegrass提供了post方法,看範例:

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');
登入後複製

以上是新浪微博Auth2.0請求accessToken的一部分,其中使用nodegrass的post請求access_token的api。

post方法比較get方法多提供了headers請求頭參數,options--post的數據,它們都是物件字面量的型別:

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };
登入後複製

三、利用nodegrass做代理伺服器? ……**

看例子:

var ng = require('nodegrass'),
   http=require('http'),
   url=require('url');

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === '/'){
      ng.get('http://www.cnblogs.com/',function(data){
        res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
        res.write(data+"\n");
        res.end();
        },'utf8');
      }
   }).listen(8088);
   console.log('server listening 8088...');
登入後複製

就這麼簡單,當然代理伺服器還有複雜的多,這個不算是,但至少你訪問本地8088端口,看到的是不是部落格花園的頁面呢?

nodegrass的開源位址:https://github.com/scottkiss/nodegrass

上面是我整理給大家的,希望今後會對大家有幫助。

相關文章:

JavaScript遞歸遍歷與非遞歸遍歷

vue中如何使用element-ui的Upload上傳元件

vue中如何實作methods方法之間呼叫

以上是使用Node.js爬蟲如何實現網頁請求的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您聽不到任何人,如何修復音頻
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解鎖Myrise中的所有內容
4 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

一文聊聊Node中的記憶體控制 一文聊聊Node中的記憶體控制 Apr 26, 2023 pm 05:37 PM

基於無阻塞、事件驅動建立的Node服務,具有記憶體消耗低的優點,非常適合處理海量的網路請求。在海量請求的前提下,就需要考慮「記憶體控制」的相關問題了。 1. V8的垃圾回收機制與記憶體限制 Js由垃圾回收機

圖文詳解Node V8引擎的記憶體和GC 圖文詳解Node V8引擎的記憶體和GC Mar 29, 2023 pm 06:02 PM

這篇文章帶大家深入了解NodeJS V8引擎的記憶體和垃圾回收器(GC),希望對大家有幫助!

深入聊聊Node中的File模組 深入聊聊Node中的File模組 Apr 24, 2023 pm 05:49 PM

文件模組是對底層文件操作的封裝,例如文件讀寫/打開關閉/刪除添加等等文件模組最大的特點就是所有的方法都提供的**同步**和**異步**兩個版本,具有sync 字尾的方法都是同步方法,沒有的都是異

聊聊如何選擇一個最好的Node.js Docker映像? 聊聊如何選擇一個最好的Node.js Docker映像? Dec 13, 2022 pm 08:00 PM

選擇一個Node的Docker映像看起來像是小事,但是映像的大小和潛在漏洞可能會對你的CI/CD流程和安全造成重大的影響。那我們要如何選擇一個最好Node.js Docker映像呢?

Node.js 19正式發布,聊聊它的 6 大功能! Node.js 19正式發布,聊聊它的 6 大功能! Nov 16, 2022 pm 08:34 PM

Node 19已正式發布,以下這篇文章就來帶大家詳解了解Node.js 19的 6 大特性,希望對大家有幫助!

聊聊Node.js中的 GC (垃圾回收)機制 聊聊Node.js中的 GC (垃圾回收)機制 Nov 29, 2022 pm 08:44 PM

Node.js 是如何做 GC (垃圾回收)的?下面這篇文章就來帶大家了解一下。

一起聊聊Node中的事件循環 一起聊聊Node中的事件循環 Apr 11, 2023 pm 07:08 PM

事件循環是 Node.js 的基本組成部分,透過確保主執行緒不被阻塞來實現非同步編程,了解事件循環對建立高效應用程式至關重要。以下這篇文章就來帶大家深入了解Node中的事件循環 ,希望對大家有幫助!

node無法用npm指令怎麼辦 node無法用npm指令怎麼辦 Feb 08, 2023 am 10:09 AM

node無法用npm指令是因為沒有正確配置環境變量,其解決方法是:1、開啟“系統屬性”;2、找到“環境變數”->“系統變數”,然後編輯環境變數;3、找到nodejs所在的資料夾;4、點選「確定」即可。

See all articles