이 기사에서는 Node.js 크롤러의 웹 요청 모듈을 주로 소개합니다. 편집자는 이것이 꽤 좋다고 생각합니다. 이제 여러분과 공유하고 참고할 것입니다. 편집자를 따라 살펴보겠습니다. 모두에게 도움이 되기를 바랍니다.
이 기사에서는 Node.js 크롤러의 웹 요청 모듈을 소개하고 모든 사람과 공유합니다. 자세한 내용은 다음과 같습니다.
참고: 최신 nodegrass 버전을 다운로드하면 일부 방법이 업데이트되었기 때문에 이 문서의 예제는 다음과 같습니다. 기사가 더 이상 적합하지 않습니다. 자세한 내용은 오픈 소스 주소를 확인하세요.
1. 왜 이런 모듈을 작성해야 하나요?
저자는 Node.js를 사용하여 크롤러를 작성하고 싶었습니다. 공식 Node.js API에서 제공하는 원격 리소스 요청 방법은 매우 간단하지만
http://nodejs.org/api/를 참조하세요. 자세한 내용은 http.html을 참조하세요. http.get(options, callback)과 http.request(options, callback) 두 가지 메소드가 제공됩니다.
get 메소드를 보면 알 수 있습니다. 요청을 받고 요청 메소드는 다른 요청 메소드, 요청 호스트의 포트 등과 같은 더 많은 매개변수를 제공합니다. Https에 대한 요청은 Http와 유사합니다. 가장 간단한 예:
var https = require('https'); https.get('https://encrypted.google.com/', function(res) { console.log("statusCode: ", res.statusCode); console.log("headers: ", res.headers); res.on('data', function(d) { process.stdout.write(d); }); }).on('error', function(e) { console.error(e); });
위 코드의 경우 원격 호스트를 요청하고 응답 상태, 응답 헤더 및 응답 본문 내용과 같은 응답 정보를 얻으려고 합니다. get 메소드의 두 번째 매개변수는 콜백 함수입니다. 그런 다음 콜백 함수에서 res 객체가 데이터를 수신합니다. 요청한 응답 정보), 이를 작동할 때 콜백이 레이어별로 다시 도입되어 결국 희미해질 가능성이 매우 높습니다. . . 비동기식 프로그래밍의 경우 동기식으로 코드를 작성하는 데 익숙한 일부 학생들은 매우 혼란스러워합니다. 물론 Lao Zhao의 Wind.js와 같은 우수한 동기화 라이브러리가 국내외에서 제공되고 있습니다. 말도 안되는. 사실 get을 호출하여 궁극적으로 얻고자 하는 것은 응답 정보인데, res.on과 같은 모니터링 프로세스는 너무 게으르기 때문에 신경 쓰지 않습니다. 매번 res.on('data',func) 을 하고 싶지 않아서 오늘 소개하고 싶은 nodegrass가 탄생했습니다.
2. Nodegrass는 Jquery의 $.get(url,func)
가장 간단한 예:
var nodegrass = require('nodegrass'); nodegrass.get("http://www.baidu.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'gbk').on('error', function(e) { console.log("Got error: " + e.message); });
얼핏 보면 공식 get과 다르지 않습니다. 실제로 Almost=입니다. =! res.on('data',func)의 이벤트 모니터링 콜백 레이어가 부족합니다. 믿거나 말거나, 두 번째 매개변수도 콜백 함수인데, 여기서 매개변수 데이터는 응답 본문 내용, 상태는 응답 상태, 헤더는 응답 헤더입니다. 응답 내용을 얻은 후에는 얻은 리소스에서 관심 있는 정보를 추출할 수 있습니다. 물론 이 예에서는 단순한 인쇄된 콘솔일 뿐입니다. 세 번째 매개변수는 문자 인코딩입니다. 현재 Node.js는 gbk를 지원하지 않습니다. 따라서 Nodegrass는 Baidu와 같이 요청한 웹페이지 인코딩이 gbk인 경우 내부적으로 처리합니다. 이 매개변수를 추가하면 됩니다.
https 요청은 어떻습니까? 공식 API라면 https 모듈을 도입해야 하는데, request get 메소드가 http와 비슷해서 그런데 nodegrass가 이를 통합해 줍니다. 예를 보세요:
var nodegrass = require('nodegrass'); nodegrass.get("https://github.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'utf8').on('error', function(e) { console.log("Got error: " + e.message); });
nodegrass는 URL을 기반으로 http인지 https인지 자동으로 식별합니다. 물론 URL에는 www.baidu.com/만 쓸 수는 없지만 http://를 입력해야 합니다. www.baidu.com/.
게시 요청의 경우 nodegrass는 post 메소드를 제공합니다. 예를 참조하세요:
var ng=require('nodegrass'); ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){ var accessToken = JSON.parse(data); var err = null; if(accessToken.error){ err = accessToken; } callback(err,accessToken); },headers,options,'utf8');
위는 nodegrass의 포스트 요청 access_token API를 사용하는 accessToken을 요청하는 Sina Weibo Auth2.0의 일부입니다.
get 메소드와 비교하여 post 메소드는 더 많은 헤더 요청 헤더 매개변수 및 옵션(게시 데이터)을 제공합니다. 이들은 모두 객체 리터럴 유형입니다.
var headers = { 'Content-Type': 'application/x-www-form-urlencoded', 'Content-Length':data.length }; var options = { client_id : 'id', client_secret : 'cs', grant_type : 'authorization_code', redirect_uri : 'your callback url', code: acode };
3. nodegrass를 프록시 서버로 사용하시겠습니까? …**
예를 보세요:
var ng = require('nodegrass'), http=require('http'), url=require('url'); http.createServer(function(req,res){ var pathname = url.parse(req.url).pathname; if(pathname === '/'){ ng.get('http://www.cnblogs.com/',function(data){ res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'}); res.write(data+"\n"); res.end(); },'utf8'); } }).listen(8088); console.log('server listening 8088...');
그렇게 간단합니다. 물론 프록시 서버는 그렇지 않지만 적어도 로컬 포트 8088에 액세스할 때는 그렇습니다. 당신이 보는 것은 블로그 공원이 아닙니다. 페이지는 어떻습니까?
nodegrass의 오픈 소스 주소: https://github.com/scottkiss/nodegrass
관련 권장 사항:
위 내용은 Node.js 크롤러의 웹 요청 모듈에 대한 자세한 설명의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!