Node.js 크롤러를 사용하여 웹 페이지 요청을 구현하는 방법
이 기사에서는 Node.js 크롤러의 웹 요청 모듈을 주로 소개하고 참고용으로 제공합니다.
이 기사에서는 Node.js 크롤러의 웹 요청 모듈을 소개하고 모든 사람과 공유합니다. 자세한 내용은 다음과 같습니다.
참고: 최신 nodegrass 버전을 다운로드하면 일부 방법이 업데이트되었기 때문에 이 기사의 예제는 다음과 같습니다. 더 이상 적합하지 않습니다. 오픈 소스 주소의 자세한 예를 확인하세요.
1. 왜 이런 모듈을 작성해야 하나요?
저자는 Node.js를 사용하여 크롤러를 작성하고 싶었습니다. 공식 Node.js API에서 제공하는 원격 리소스 요청 방법은 매우 간단하지만
http://nodejs.org/api/를 참조하세요. 자세한 내용은 http.html을 참조하세요. http.get(options, callback)과 http.request(options, callback) 두 가지 메소드가 제공됩니다.
get 메소드를 보면 알 수 있습니다. 요청을 받고 요청 메소드는 다른 요청 메소드, 요청 호스트의 포트 등과 같은 더 많은 매개변수를 제공합니다. Https에 대한 요청은 Http와 유사합니다. 가장 간단한 예:
var https = require('https'); https.get('https://encrypted.google.com/', function(res) { console.log("statusCode: ", res.statusCode); console.log("headers: ", res.headers); res.on('data', function(d) { process.stdout.write(d); }); }).on('error', function(e) { console.error(e); });
위 코드의 경우 원격 호스트에 요청하고 응답 상태, 응답 헤더 및 응답 본문 내용과 같은 응답 정보를 얻으려고 합니다. get 메소드의 두 번째 매개변수는 콜백 함수입니다. 그런 다음 콜백 함수에서 res 객체가 데이터를 수신합니다. 요청한 응답 정보), 이를 작동할 때 콜백이 레이어별로 다시 도입되어 결국 희미해질 가능성이 매우 높습니다. . . 비동기식 프로그래밍의 경우 동기식으로 코드를 작성하는 데 익숙한 일부 학생들은 매우 혼란스러워합니다. 물론 Lao Zhao의 Wind.js와 같은 우수한 동기화 라이브러리가 국내외에서 제공되고 있습니다. 말도 안되는. 사실 get을 호출하여 궁극적으로 얻고자 하는 것은 응답 정보인데, res.on과 같은 모니터링 프로세스는 너무 게으르기 때문에 신경 쓰지 않습니다. 매번 res.on('data',func) 을 하고 싶지 않아서 오늘 소개하고 싶은 nodegrass가 탄생했습니다.
2. Nodegrass는 Jquery의 $.get(url,func)
과 같은 리소스를 요청합니다. 가장 간단한 예:
var nodegrass = require('nodegrass'); nodegrass.get("http://www.baidu.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'gbk').on('error', function(e) { console.log("Got error: " + e.message); });
얼핏 보면 공식 get과 다르지 않으며 실제로 거의=입니다. =! res.on('data',func)의 이벤트 모니터링 콜백 레이어가 부족합니다. 믿거나 말거나 어쨌든 훨씬 편한 것 같습니다. 두 번째 매개변수도 콜백 함수입니다. 매개변수 데이터는 응답 본문 내용이고, 상태는 응답 상태이고, 헤더는 응답 헤더입니다. 응답 내용을 얻은 후에는 얻은 리소스에서 관심 있는 정보를 추출할 수 있습니다. 물론 이 예에서는 단순한 인쇄된 콘솔일 뿐입니다. 세 번째 매개변수는 문자 인코딩입니다. 현재 Node.js는 gbk를 지원하지 않습니다. 따라서 Nodegrass는 Baidu와 같이 요청한 웹페이지 인코딩이 gbk인 경우 내부적으로 처리합니다. 이 매개변수를 추가하면 됩니다.
https 요청은 어떻습니까? 공식 API라면 https 모듈을 도입해야 하는데, request get 메소드가 http와 비슷해서 그런데 nodegrass가 이를 통합해 줍니다. 예를 보세요:
var nodegrass = require('nodegrass'); nodegrass.get("https://github.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'utf8').on('error', function(e) { console.log("Got error: " + e.message); });
nodegrass는 URL을 기반으로 http인지 https인지 자동으로 식별합니다. 물론 URL에는 www.baidu.com/만 쓸 수 없고 http://www.baidu가 있어야 합니다. .com/.
게시 요청의 경우 nodegrass는 post 메소드를 제공합니다. 예를 참조하세요:
var ng=require('nodegrass'); ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){ var accessToken = JSON.parse(data); var err = null; if(accessToken.error){ err = accessToken; } callback(err,accessToken); },headers,options,'utf8');
위는 nodegrass의 포스트 요청 access_token API를 사용하는 Sina Weibo Auth2.0 요청 accessToken의 일부입니다.
get 메소드에 비해 post 메소드는 더 많은 헤더 요청 헤더 매개변수와 옵션(게시 데이터)을 제공합니다. 이들은 모두 객체 리터럴 유형입니다.
var headers = { 'Content-Type': 'application/x-www-form-urlencoded', 'Content-Length':data.length }; var options = { client_id : 'id', client_secret : 'cs', grant_type : 'authorization_code', redirect_uri : 'your callback url', code: acode };
3. nodegrass를 프록시 서버로 사용하시겠습니까? …**
예를 보세요:
var ng = require('nodegrass'), http=require('http'), url=require('url'); http.createServer(function(req,res){ var pathname = url.parse(req.url).pathname; if(pathname === '/'){ ng.get('http://www.cnblogs.com/',function(data){ res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'}); res.write(data+"\n"); res.end(); },'utf8'); } }).listen(8088); console.log('server listening 8088...');
물론 프록시 서버는 훨씬 더 복잡하지만 적어도 로컬 포트 8088에 액세스하면 표시되는 내용은 다음과 같습니다. 블로그 공원 페이지?
nodegrass의 오픈 소스 주소: https://github.com/scottkiss/nodegrass
위 내용은 제가 모든 사람을 위해 정리한 내용입니다. 앞으로 모든 사람에게 도움이 되기를 바랍니다.
관련 기사:
vue에서 element-ui의 업로드 업로드 구성 요소를 사용하는 방법
위 내용은 Node.js 크롤러를 사용하여 웹 페이지 요청을 구현하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Non-Blocking, Event-Driven 기반으로 구축된 Node 서비스는 메모리 소모가 적다는 장점이 있으며, 대규모 네트워크 요청을 처리하는데 매우 적합합니다. 대규모 요청을 전제로 '메모리 제어'와 관련된 문제를 고려해야 합니다. 1. V8의 가비지 수집 메커니즘과 메모리 제한 Js는 가비지 수집 기계에 의해 제어됩니다.

이 기사는 NodeJS V8 엔진의 메모리 및 가비지 수집기(GC)에 대한 심층적인 이해를 제공할 것입니다. 도움이 되기를 바랍니다.

파일 모듈은 파일 읽기/쓰기/열기/닫기/삭제 추가 등과 같은 기본 파일 작업을 캡슐화한 것입니다. 파일 모듈의 가장 큰 특징은 모든 메소드가 **동기** 및 ** 두 가지 버전을 제공한다는 것입니다. 비동기**, sync 접미사가 있는 메서드는 모두 동기화 메서드이고, 없는 메서드는 모두 이기종 메서드입니다.

Node용 Docker 이미지를 선택하는 것은 사소한 문제처럼 보일 수 있지만 이미지의 크기와 잠재적인 취약점은 CI/CD 프로세스와 보안에 상당한 영향을 미칠 수 있습니다. 그렇다면 최고의 Node.js Docker 이미지를 어떻게 선택합니까?

Node 19가 정식 출시되었습니다. 이 글에서는 Node.js 19의 6가지 주요 기능에 대해 자세히 설명하겠습니다. 도움이 되셨으면 좋겠습니다!

Node.js는 GC(가비지 수집)를 어떻게 수행하나요? 다음 기사에서는 이에 대해 설명합니다.

이벤트 루프는 Node.js의 기본 부분이며 메인 스레드가 차단되지 않도록 하여 비동기 프로그래밍을 가능하게 합니다. 이벤트 루프를 이해하는 것은 효율적인 애플리케이션을 구축하는 데 중요합니다. 다음 기사는 Node.js의 이벤트 루프에 대한 심층적인 이해를 제공할 것입니다. 도움이 되기를 바랍니다!

노드가 npm 명령을 사용할 수 없는 이유는 환경 변수가 올바르게 구성되지 않았기 때문입니다. 해결 방법은 다음과 같습니다. 1. "시스템 속성"을 엽니다. 2. "환경 변수" -> "시스템 변수"를 찾은 다음 환경을 편집합니다. 3. nodejs 폴더의 위치를 찾습니다. 4. "확인"을 클릭합니다.
