Node.js 크롤러를 사용하여 웹 페이지 요청을 구현하는 방법

亚连
풀어 주다: 2018-06-12 14:54:49
원래의
1494명이 탐색했습니다.

이 기사에서는 Node.js 크롤러의 웹 요청 모듈을 주로 소개하고 참고용으로 제공합니다.

이 기사에서는 Node.js 크롤러의 웹 요청 모듈을 소개하고 모든 사람과 공유합니다. 자세한 내용은 다음과 같습니다.

참고: 최신 nodegrass 버전을 다운로드하면 일부 방법이 업데이트되었기 때문에 이 기사의 예제는 다음과 같습니다. 더 이상 적합하지 않습니다. 오픈 소스 주소의 자세한 예를 확인하세요.

1. 왜 이런 모듈을 작성해야 하나요?

저자는 Node.js를 사용하여 크롤러를 작성하고 싶었습니다. 공식 Node.js API에서 제공하는 원격 리소스 요청 방법은 매우 간단하지만

http://nodejs.org/api/를 참조하세요. 자세한 내용은 http.html을 참조하세요. http.get(options, callback)과 http.request(options, callback) 두 가지 메소드가 제공됩니다.

get 메소드를 보면 알 수 있습니다. 요청을 받고 요청 메소드는 다른 요청 메소드, 요청 호스트의 포트 등과 같은 더 많은 매개변수를 제공합니다. Https에 대한 요청은 Http와 유사합니다. 가장 간단한 예:

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});
로그인 후 복사

위 코드의 경우 원격 호스트에 요청하고 응답 상태, 응답 헤더 및 응답 본문 내용과 같은 응답 정보를 얻으려고 합니다. get 메소드의 두 번째 매개변수는 콜백 함수입니다. 그런 다음 콜백 함수에서 res 객체가 데이터를 수신합니다. 요청한 응답 정보), 이를 작동할 때 콜백이 레이어별로 다시 도입되어 결국 희미해질 가능성이 매우 높습니다. . . 비동기식 프로그래밍의 경우 동기식으로 코드를 작성하는 데 익숙한 일부 학생들은 매우 혼란스러워합니다. 물론 Lao Zhao의 Wind.js와 같은 우수한 동기화 라이브러리가 국내외에서 제공되고 있습니다. 말도 안되는. 사실 get을 호출하여 궁극적으로 얻고자 하는 것은 응답 정보인데, res.on과 같은 모니터링 프로세스는 너무 게으르기 때문에 신경 쓰지 않습니다. 매번 res.on('data',func) 을 하고 싶지 않아서 오늘 소개하고 싶은 nodegrass가 탄생했습니다.

2. Nodegrass는 Jquery의 $.get(url,func)

과 같은 리소스를 요청합니다. 가장 간단한 예:

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});
로그인 후 복사

얼핏 보면 공식 get과 다르지 않으며 실제로 거의=입니다. =! res.on('data',func)의 이벤트 모니터링 콜백 레이어가 부족합니다. 믿거나 말거나 어쨌든 훨씬 편한 것 같습니다. 두 번째 매개변수도 콜백 함수입니다. 매개변수 데이터는 응답 본문 내용이고, 상태는 응답 상태이고, 헤더는 응답 헤더입니다. 응답 내용을 얻은 후에는 얻은 리소스에서 관심 있는 정보를 추출할 수 있습니다. 물론 이 예에서는 단순한 인쇄된 콘솔일 뿐입니다. 세 번째 매개변수는 문자 인코딩입니다. 현재 Node.js는 gbk를 지원하지 않습니다. 따라서 Nodegrass는 Baidu와 같이 요청한 웹페이지 인코딩이 gbk인 경우 내부적으로 처리합니다. 이 매개변수를 추가하면 됩니다.

https 요청은 어떻습니까? 공식 API라면 https 모듈을 도입해야 하는데, request get 메소드가 http와 비슷해서 그런데 nodegrass가 이를 통합해 줍니다. 예를 보세요:

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});
로그인 후 복사

nodegrass는 URL을 기반으로 http인지 https인지 자동으로 식별합니다. 물론 URL에는 www.baidu.com/만 쓸 수 없고 http://www.baidu가 있어야 합니다. .com/.

게시 요청의 경우 nodegrass는 post 메소드를 제공합니다. 예를 참조하세요:

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');
로그인 후 복사

위는 nodegrass의 포스트 요청 access_token API를 사용하는 Sina Weibo Auth2.0 요청 accessToken의 일부입니다.

get 메소드에 비해 post 메소드는 더 많은 헤더 요청 헤더 매개변수와 옵션(게시 데이터)을 제공합니다. 이들은 모두 객체 리터럴 유형입니다.

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };
로그인 후 복사

3. nodegrass를 프록시 서버로 사용하시겠습니까? …**

예를 보세요:

var ng = require('nodegrass'),
   http=require('http'),
   url=require('url');

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === '/'){
      ng.get('http://www.cnblogs.com/',function(data){
        res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
        res.write(data+"\n");
        res.end();
        },'utf8');
      }
   }).listen(8088);
   console.log('server listening 8088...');
로그인 후 복사

물론 프록시 서버는 훨씬 더 복잡하지만 적어도 로컬 포트 ​​8088에 액세스하면 표시되는 내용은 다음과 같습니다. 블로그 공원 페이지?

nodegrass의 오픈 소스 주소: https://github.com/scottkiss/nodegrass

위 내용은 제가 모든 사람을 위해 정리한 내용입니다. 앞으로 모든 사람에게 도움이 되기를 바랍니다.

관련 기사:

JavaScript 재귀 순회 및 비재귀 순회

vue에서 element-ui의 업로드 업로드 구성 요소를 사용하는 방법

vue에서 메서드 간 호출을 구현하는 방법

위 내용은 Node.js 크롤러를 사용하여 웹 페이지 요청을 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿