목차
종속성 선택
초기 구현
분석 페이지
페이지 영화 제목을 얻을 수 있습니다
여러 페이지로 구성된 영화 제목 가져오기
영화 다운로드 링크 받기
웹 프론트엔드 JS 튜토리얼 Node.js를 사용하여 간단한 크롤러를 구현하는 방법

Node.js를 사용하여 간단한 크롤러를 구현하는 방법

Mar 19, 2017 pm 05:24 PM
node.js 웹 크롤러

크롤러를 작성하기 위해 노드를 사용하기로 선택한 이유는 무엇입니까? Cherio 라이브러리는 jQuery 구문과 완벽하게 호환되기 때문입니다. 익숙하다면

종속성 선택

  • cheerio: Node .js jQuery 버전

  • http: HTTP 서버와 간단한 HTTP 클라이언트를 캡슐화합니다

  • iconv-lite: gb2312 웹 페이지 크롤링 시 문자 깨짐 문제 해결

초기 구현

웹 사이트 콘텐츠를 크롤링하려면 먼저 웹사이트 기본 구조 살펴보기
Movie Paradise를 대상 웹사이트로 선택하고 최신 영화 다운로드 링크를 모두 크롤링하려고 했습니다.

분석 페이지

페이지 구조는 다음과 같습니다. :
Node.js를 사용하여 간단한 크롤러를 구현하는 방법

각 영화의 제목이 <a href="http://www.php.cn/wiki/164.html">class<code><a href="http://www.php.cn/wiki/164.html" target="_blank">class</a> ulinka 태그 아래에서 위로 이동하면 가장 바깥쪽 상자 classco_content8

인 것을 확인할 수 있습니다. , 작업을 시작하면

페이지 영화 제목을 얻을 수 있습니다

먼저 종속성을 소개하고 크롤링할 URL을 설정합니다

var cheerio = require('cheerio');
var http = require('http');
var iconv = require('iconv-lite');

var url = 'http://www.ygdy8.net/html/gndy/dyzz/index.html';
로그인 후 복사

핵심 코드index.js

http.get(url, function(sres) {
  var chunks = [];
  sres.on('data', function(chunk) {
    chunks.push(chunk);
  });
  // chunks里面存储着网页的 html 内容,将它zhuan ma传给 cheerio.load 之后
  // 就可以得到一个实现了 jQuery 接口的变量,将它命名为 `$`
  // 剩下就都是 jQuery 的内容了
  sres.on('end', function() {
    var titles = [];
    //由于咱们发现此网页的编码格式为gb2312,所以需要对其进行转码,否则乱码
    //依据:“<meta>”
    var html = iconv.decode(Buffer.concat(chunks), 'gb2312');
    var $ = cheerio.load(html, {decodeEntities: false});
    $('.co_content8 .ulink').each(function (idx, element) {
      var $element = $(element);
      titles.push({
        title: $element.text()
      })
    })    
    console.log(titles);     
  });
});
로그인 후 복사

실행node index

결과는 다음과 같습니다.
Node.js를 사용하여 간단한 크롤러를 구현하는 방법

영화 제목을 성공적으로 얻었습니다. 여러 페이지의 제목을 얻으려면 불가능합니다. URL을 하나씩 변경합니다. 물론 방법도 있습니다. 계속 읽어보세요!

여러 페이지로 구성된 영화 제목 가져오기

이전 코드를 함수로 캡슐화하고 재귀적으로실행하면 완료됩니다

핵심코드index.js

var index = 1; //页面数控制
var url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_';
var titles = []; //用于保存title

function getTitle(url, i) {
  console.log("正在获取第" + i + "页的内容"); 
  http.get(url + i + '.html', function(sres) {
    var chunks = [];
    sres.on('data', function(chunk) {
      chunks.push(chunk);
    });
    sres.on('end', function() {
      var html = iconv.decode(Buffer.concat(chunks), 'gb2312');
      var $ = cheerio.load(html, {decodeEntities: false});
      $('.co_content8 .ulink').each(function (idx, element) {
        var $element = $(element);
        titles.push({
          title: $element.text()
        })
      })  
      if(i <p>결과는 다음과 같습니다<br><img src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/013/79a1edcfe9244c5fb6f23f007f455aaf-2.png" class="lazy"    style="max-width:90%"  style="max-width:90%" title="Node.js를 사용하여 간단한 크롤러를 구현하는 방법" alt="Node.js를 사용하여 간단한 크롤러를 구현하는 방법"></p><h4 id="영화-다운로드-링크-받기">영화 다운로드 링크 받기</h4><p>수동인 경우, 한 번의 작업이 필요합니다. 클릭하여 입력하세요. 다운로드 주소는 영화 세부정보 페이지에서만 찾을 수 있습니다<br>그럼 노드를 통해 어떻게 구현합니까</p><p>먼저 루틴을 분석해 보겠습니다<a href="http://www.php.cn/code/7955.html" target="_blank">페이지 레이아웃</a> <br><img src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/013/45e6e69669b80c60f0e7eabd78b3a018-3.png" class="lazy"    style="max-width:90%"  style="max-width:90%" title="Node.js를 사용하여 간단한 크롤러를 구현하는 방법" alt="Node.js를 사용하여 간단한 크롤러를 구현하는 방법"></p><p>다운로드 링크를 정확하게 찾으려면 먼저 <code>id</code>이 <code>Zoom</code>인 p를 찾아야 합니다. 다운로드 링크는 <code>p</code> 태그에 있습니다. 🎜> 이 <code>tr</code> 아래에 있습니다. <code>a</code></p>그런 다음 <p>함수를 정의<a href="http://www.php.cn/code/8119.html" target="_blank">하여 다운로드 링크를 가져옵니다</a></p>getBtLink()<p></p><pre class="brush:php;toolbar:false">function getBtLink(urls, n) { //urls里面包含着所有详情页的地址
  console.log("正在获取第" + n + "个url的内容");
  http.get('http://www.ygdy8.net' + urls[n].title, function(sres) {
    var chunks = [];
    sres.on('data', function(chunk) {
      chunks.push(chunk);
    });
    sres.on('end', function() {
      var html = iconv.decode(Buffer.concat(chunks), 'gb2312'); //进行转码
      var $ = cheerio.load(html, {decodeEntities: false});
      $('#Zoom td').children('a').each(function (idx, element) {
        var $element = $(element);
        btLink.push({
          bt: $element.attr('href')
        })
      })
      if(n 다시 실행<p><code>node index</code><br> <img src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/013/2816c9cbd03b1466c255e54c10156e14-4.png" class="lazy"    style="max-width:90%"  style="max-width:90%" title="Node.js를 사용하여 간단한 크롤러를 구현하는 방법" alt="Node.js를 사용하여 간단한 크롤러를 구현하는 방법"><br><img src="/static/imghw/default1.png" data-src="https://img.php.cn/upload/article/000/000/013/8eb570e10f1a4e755ebffd92bd150760-5.png" class="lazy"    style="max-width:90%"  style="max-width:90%" title="Node.js를 사용하여 간단한 크롤러를 구현하는 방법" alt="Node.js를 사용하여 간단한 크롤러를 구현하는 방법"></p>이렇게 3페이지에 걸쳐 모든 영화의 다운로드 링크를 얻었습니다. 매우 간단하지 않나요? <p></p>데이터 저장<h2></h2>물론 데이터는 크롤링한 후 저장해야 합니다. 여기서는 <p>MongoDB<a href="http://www.php.cn/wiki/1523.html" target="_blank">를 선택하여 저장</a> </p>데이터 저장 기능<p><code>save()</code></p><pre class="brush:php;toolbar:false">function save() {
  var MongoClient = require('mongodb').MongoClient; //导入依赖
  MongoClient.connect(mongo_url, function (err, db) {
    if (err) {
      console.error(err);
      return;
    } else {
      console.log("成功连接数据库");
      var collection = db.collection('node-reptitle');
      collection.insertMany(btLink, function (err,result) { //插入数据
        if (err) {
          console.error(err);
        } else {
          console.log("保存数据成功");
        }
      })
      db.close();
    }
  });
}
로그인 후 복사
여기 작업은 매우 간단합니다. 몽구스를 사용할 필요가 없습니다

다시 실행
node index
Node.js를 사용하여 간단한 크롤러를 구현하는 방법

이 노드는 다음에서 구현된 크롤러입니다. .js. 모두가 원하는 데이터를 크롤링할 수 있기를 바랍니다.)

위 내용은 Node.js를 사용하여 간단한 크롤러를 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Node V8 엔진의 메모리와 GC에 대한 자세한 그래픽 설명 Node V8 엔진의 메모리와 GC에 대한 자세한 그래픽 설명 Mar 29, 2023 pm 06:02 PM

이 기사는 NodeJS V8 엔진의 메모리 및 가비지 수집기(GC)에 대한 심층적인 이해를 제공할 것입니다. 도움이 되기를 바랍니다.

Node의 메모리 제어에 관한 기사 Node의 메모리 제어에 관한 기사 Apr 26, 2023 pm 05:37 PM

Non-Blocking, Event-Driven 기반으로 구축된 Node 서비스는 메모리 소모가 적다는 장점이 있으며, 대규모 네트워크 요청을 처리하는데 매우 적합합니다. 대규모 요청을 전제로 '메모리 제어'와 관련된 문제를 고려해야 합니다. 1. V8의 가비지 수집 메커니즘과 메모리 제한 Js는 가비지 수집 기계에 의해 제어됩니다.

최고의 Node.js Docker 이미지를 선택하는 방법에 대해 이야기해 볼까요? 최고의 Node.js Docker 이미지를 선택하는 방법에 대해 이야기해 볼까요? Dec 13, 2022 pm 08:00 PM

Node용 Docker 이미지를 선택하는 것은 사소한 문제처럼 보일 수 있지만 이미지의 크기와 잠재적인 취약점은 CI/CD 프로세스와 보안에 상당한 영향을 미칠 수 있습니다. 그렇다면 최고의 Node.js Docker 이미지를 어떻게 선택합니까?

Node.js 19가 공식적으로 출시되었습니다. Node.js의 6가지 주요 기능에 대해 이야기해 보겠습니다! Node.js 19가 공식적으로 출시되었습니다. Node.js의 6가지 주요 기능에 대해 이야기해 보겠습니다! Nov 16, 2022 pm 08:34 PM

Node 19가 정식 출시되었습니다. 이 글에서는 Node.js 19의 6가지 주요 기능에 대해 자세히 설명하겠습니다. 도움이 되셨으면 좋겠습니다!

Node의 파일 모듈에 대해 자세히 이야기해 보겠습니다. Node의 파일 모듈에 대해 자세히 이야기해 보겠습니다. Apr 24, 2023 pm 05:49 PM

파일 모듈은 파일 읽기/쓰기/열기/닫기/삭제 추가 등과 같은 기본 파일 작업을 캡슐화한 것입니다. 파일 모듈의 가장 큰 특징은 모든 메소드가 **동기** 및 ** 두 가지 버전을 제공한다는 것입니다. 비동기**, sync 접미사가 있는 메서드는 모두 동기화 메서드이고, 없는 메서드는 모두 이기종 메서드입니다.

Node.js의 GC(가비지 수집) 메커니즘에 대해 이야기해 보겠습니다. Node.js의 GC(가비지 수집) 메커니즘에 대해 이야기해 보겠습니다. Nov 29, 2022 pm 08:44 PM

Node.js는 GC(가비지 수집)를 어떻게 수행하나요? 다음 기사에서는 이에 대해 설명합니다.

Node의 이벤트 루프에 대해 이야기해 봅시다. Node의 이벤트 루프에 대해 이야기해 봅시다. Apr 11, 2023 pm 07:08 PM

이벤트 루프는 Node.js의 기본 부분이며 메인 스레드가 차단되지 않도록 하여 비동기 프로그래밍을 가능하게 합니다. 이벤트 루프를 이해하는 것은 효율적인 애플리케이션을 구축하는 데 중요합니다. 다음 기사는 Node.js의 이벤트 루프에 대한 심층적인 이해를 제공할 것입니다. 도움이 되기를 바랍니다!

간단한 웹 크롤러 프로그램을 구현하기 위해 C++를 사용하는 방법은 무엇입니까? 간단한 웹 크롤러 프로그램을 구현하기 위해 C++를 사용하는 방법은 무엇입니까? Nov 04, 2023 am 11:37 AM

간단한 웹 크롤러 프로그램을 구현하기 위해 C++를 사용하는 방법은 무엇입니까? 서문: 인터넷은 정보의 보고이며, 웹 크롤러를 통해 인터넷에서 유용한 많은 데이터를 쉽게 얻을 수 있습니다. 이 기사에서는 C++를 사용하여 간단한 웹 크롤러 프로그램을 작성하는 방법과 몇 가지 일반적인 팁 및 예방 조치를 소개합니다. 1. C++ 컴파일러 설치 준비: 먼저 컴퓨터에 gcc 또는 clang과 같은 C++ 컴파일러를 설치해야 합니다. 명령줄을 통해 "g++-v" 또는 "clang"을 입력할 수 있습니다.

See all articles