使用Node.js爬蟲如何實現網頁請求
本篇文章主要介紹了淺談Node.js爬蟲之網頁請求模組,現在分享給大家,也給大家做個參考。
本文介紹了Node.js爬蟲之網頁請求模組,分享給大家,具體如下:
#註:如您下載最新的nodegrass版本,由於部分方法已經更新,本文的例子已經不再適應,詳細請查看開源位址中的範例。
一、為什麼我要寫這樣一個模組?
源自於筆者想使用Node.js寫一個爬蟲,雖然Node.js官方API提供的請求遠端資源的方法已經非常簡便,具體參考
#http:// nodejs.org/api/http.html 其中對於Http的請求提供了,http.get(options, callback)和http.request(options, callback)兩個方法,
看方法便知,get方法用於get方式的請求,而request方法提供更多的參數,例如其它請求方式,請求主機的連接埠等等。對於Https的請求於Http類似。一個最簡單的例子:
var https = require('https'); https.get('https://encrypted.google.com/', function(res) { console.log("statusCode: ", res.statusCode); console.log("headers: ", res.headers); res.on('data', function(d) { process.stdout.write(d); }); }).on('error', function(e) { console.error(e); });
對於上述程式碼,我們無非就是想請求遠端主機,得到回應訊息,例如回應狀態,回應頭,回應主體內容。其中get方法的第二個參數是一個回調函數,我們異步的獲取響應信息,然後,在該回調函數中,res對象又監聽data,on方法中第二個參數又是一個回調,而你得到d (你要求到的回應訊息)後,很可能在對它進行操作的時候再次引入回調,一層層下去,最後就暈了。 。 。對於非同步方式的編程,對於一些習慣同步方式寫代碼的同學是非常糾結的,當然國內外已經對此提供了一些非常優秀的同步類庫,例如老趙的Wind.js......好像有點扯遠了。其實,我們呼叫get最終要得到的無非就是回應訊息,而不關心res.on這樣的監聽過程,因為太懶惰。不想每次都res.on('data',func),於是誕生了今天我要介紹的nodegrass。
二、nodegrass請求資源,像Jquery的$.get(url,func)
一個最簡單的例子:
var nodegrass = require('nodegrass'); nodegrass.get("http://www.baidu.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'gbk').on('error', function(e) { console.log("Got error: " + e.message); });
咋一看,和官方原來的get沒啥區別,確實差不多=。 =!只不過少了一層res.on('data',func)的事件監聽回呼而已。不管你信不信,反正我看上去感覺舒服多了,第二個參數同樣是一個回調函數,其中的參數data是響應主體內容,status是響應狀態,headers是響應頭。得到回應內容,我們就可以對得到的資源提取任何我們感興趣的資訊啦。當然這個例子中,只是簡單的列印的控制台而已。第三個參數是字元編碼,目前Node.js不支援gbk,這裡nodegrass內部引用了iconv-lite進行了處理,所以,如果你要求的網頁編碼是gbk的,例如百度。只要加上這個參數就行了。
那麼對於https的請求呢?如果是官方api,你得引入https模組,但是請求的get方法等和http類似,於是nodegrass順便把他們整合在一塊了。看範例:
var nodegrass = require('nodegrass'); nodegrass.get("https://github.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'utf8').on('error', function(e) { console.log("Got error: " + e.message); });
nodegrass會根據url自動辨識是http還是https,當然你的url必須得有,不能只寫www.baidu.com/而需要http://www.baidu.com/ 。
對於post的請求,nodegrass提供了post方法,看範例:
var ng=require('nodegrass'); ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){ var accessToken = JSON.parse(data); var err = null; if(accessToken.error){ err = accessToken; } callback(err,accessToken); },headers,options,'utf8');
以上是新浪微博Auth2.0請求accessToken的一部分,其中使用nodegrass的post請求access_token的api。
post方法比較get方法多提供了headers請求頭參數,options--post的數據,它們都是物件字面量的型別:
var headers = { 'Content-Type': 'application/x-www-form-urlencoded', 'Content-Length':data.length }; var options = { client_id : 'id', client_secret : 'cs', grant_type : 'authorization_code', redirect_uri : 'your callback url', code: acode };
三、利用nodegrass做代理伺服器? ……**
看例子:
var ng = require('nodegrass'), http=require('http'), url=require('url'); http.createServer(function(req,res){ var pathname = url.parse(req.url).pathname; if(pathname === '/'){ ng.get('http://www.cnblogs.com/',function(data){ res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'}); res.write(data+"\n"); res.end(); },'utf8'); } }).listen(8088); console.log('server listening 8088...');
就這麼簡單,當然代理伺服器還有複雜的多,這個不算是,但至少你訪問本地8088端口,看到的是不是部落格花園的頁面呢?
nodegrass的開源位址:https://github.com/scottkiss/nodegrass
上面是我整理給大家的,希望今後會對大家有幫助。
相關文章:
以上是使用Node.js爬蟲如何實現網頁請求的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

基於無阻塞、事件驅動建立的Node服務,具有記憶體消耗低的優點,非常適合處理海量的網路請求。在海量請求的前提下,就需要考慮「記憶體控制」的相關問題了。 1. V8的垃圾回收機制與記憶體限制 Js由垃圾回收機

文件模組是對底層文件操作的封裝,例如文件讀寫/打開關閉/刪除添加等等文件模組最大的特點就是所有的方法都提供的**同步**和**異步**兩個版本,具有sync 字尾的方法都是同步方法,沒有的都是異

選擇一個Node的Docker映像看起來像是小事,但是映像的大小和潛在漏洞可能會對你的CI/CD流程和安全造成重大的影響。那我們要如何選擇一個最好Node.js Docker映像呢?

Node 19已正式發布,以下這篇文章就來帶大家詳解了解Node.js 19的 6 大特性,希望對大家有幫助!

事件循環是 Node.js 的基本組成部分,透過確保主執行緒不被阻塞來實現非同步編程,了解事件循環對建立高效應用程式至關重要。以下這篇文章就來帶大家深入了解Node中的事件循環 ,希望對大家有幫助!

node無法用npm指令是因為沒有正確配置環境變量,其解決方法是:1、開啟“系統屬性”;2、找到“環境變數”->“系統變數”,然後編輯環境變數;3、找到nodejs所在的資料夾;4、點選「確定」即可。
