node.js는 웹페이지의 js 파일을 크롤링하고 분석하여 특별한 content_node.js가 있는지 확인합니다.

WBOY
풀어 주다: 2016-05-16 15:31:49
원래의
1083명이 탐색했습니다.

Nodejs는 웹 페이지 콘텐츠를 가져와서 데이터 이벤트를 바인딩합니다. 획득한 데이터는 여러 번 응답합니다. 글로벌 콘텐츠를 일치시키려면 요청이 끝날 때까지 기다렸다가 축적된 글로벌 데이터를 작동해야 합니다. 마지막 이벤트에요!

예를 들어 페이지에 www.baidu.com이 있는지 확인하려면 더 이상 설명하지 않고 코드만 입력하면 됩니다.

//引入模块
var http = require("http"),
fs = require('fs'),
url = require('url');
//写入文件,把结果写入不同的文件
var writeRes = function(p, r) {
   fs.appendFile(p , r, function(err) {
    if(err)
       console.log(err);
    else
       console.log(r);
  });
},
//发请求,并验证内容,把结果写入文件
postHttp = function(arr, num) {
   console.log('第'+num+"条!")
   var a = arr[num].split(" - ");
   if(!a[0] || !a[1]) {
     return;
   }
   var address = url.parse(a[1]),
   options = {
     host : address.host,
     path: address.path,
     hostname : address.hostname,
     method: 'GET',
     headers: {
      'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36'
    }
   }
   var req = http.request(options, function(res) {
     if (res.statusCode == 200) {
        res.setEncoding('UTF-8');
        var data = '';
        res.on('data', function (rd) {  
          data += rd;
        });
        res.on('end', function(q) {
          if(!~data.indexOf("www.baidu.com")) {
             return writeRes('./no2.txt', a[0] + '--' + a[1] + '\n');            
          } else {
             return writeRes('./has2.txt', a[0] + '--' + a[1] + "\n");
          }
        })
     } else {
        writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + res.statusCode + '\n');
     }
   });
   req.on('error', function(e) {
     writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + e + '\n');
   })
   req.end();
},
//读取文件,获取需要抓取的页面
openFile = function(path, coding) {
   fs.readFile(path, coding, function(err, data) {
     var res = data.split("\n");  
     for (var i = 0, rl = res.length; i < rl; i++) {
        if(!res[i])
          continue;
        postHttp(res, i);  
     };  
   })
};
openFile('./sites.log', 'utf-8');
로그인 후 복사

위 코드를 이해하실 수 있습니다. 궁금한 사항이 있으면 메시지를 남겨주세요. 구체적인 내용은 실제 적용 사례에 따라 다릅니다.

다음은 Nodejs의 웹 페이지 크롤링 기능을 소개합니다

첫 번째 PHP. 먼저 장점에 대해 이야기해 보겠습니다. 온라인에서 HTML을 크롤링하고 구문 분석하기 위한 프레임워크가 많이 있으며, 다양한 도구를 직접 사용할 수 있으므로 더 걱정할 필요가 없습니다. 단점: 일단 속도/효율성이 문제네요 한번 영화포스터를 다운받았을 때 crontab이 주기적으로 실행되고 최적화가 너무 많이 열려서 메모리가 직접적으로 부담이 되었습니다. 그러면 문법도 너무 느리고, 키워드와 기호도 너무 많고, 간결하지도 않아, 세심하게 디자인되지 않은 듯한 느낌을 주고, 작성하기가 매우 어렵습니다.

Node.js. 장점은 효율성, 효율, 효율성입니다. 네트워크는 기본적으로 수백 개의 동시 프로세스만큼 강력합니다. 캡처된 데이터에 대한 복잡한 계산 및 처리가 없으면 메모리 및 CPU 사용량이 매우 적습니다. 시스템 병목 현상은 기본적으로 MySQL과 같은 데이터베이스에 쓰는 대역폭과 I/O 속도에 따라 달라집니다. 물론 장점의 반대는 단점이기도 합니다. 이때, 비즈니스 요구가 선형적인 경우에는 이전 페이지 가져오기가 완료될 때까지 기다렸다가 먼저 데이터를 가져와야 합니다. 다음 페이지를 가져오는 중 레이어 종속성이 더 많아지면 끔찍한 다중 레이어 콜백이 발생합니다! 기본적으로 이때 코드 구조와 로직이 엉망이 됩니다. 물론 단계 및 기타 프로세스 제어 도구를 사용하여 이러한 문제를 해결할 수 있습니다.

마지막으로 Python에 대해 이야기해 보겠습니다. 효율성에 대한 극단적인 요구 사항이 없다면 Python을 권장합니다! 우선, Python의 구문은 매우 간결하며, 동일한 명령문을 키보드에서 여러 번 저장할 수 있습니다. 그렇다면 Python은 함수 매개변수의 패키징 및 언패킹, 목록 분석, 행렬 처리 등의 데이터 처리에 매우 적합하므로 매우 편리합니다.

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿