ホームページ ウェブフロントエンド jsチュートリアル Node.js クローラーを使用して Web ページリクエストを実装する方法

Node.js クローラーを使用して Web ページリクエストを実装する方法

Jun 12, 2018 pm 02:54 PM
node.js

この記事では主に Node.js クローラーの Web リクエスト モジュールを紹介し、参考として提供します。

この記事では、Node.js クローラーの Web リクエスト モジュールを紹介し、それを皆さんと共有します。詳細は次のとおりです。

注: 最新バージョンの Nodegrass をダウンロードした場合、一部のメソッドが更新されているため、この記事の例は適用されません。詳細については、オープンソース アドレスの例を確認してください。

1. なぜそのようなモジュールを作成する必要があるのでしょうか?

作者はNode.jsを使ってクローラを書きたいと考えていましたが、公式のNode.js APIが提供するリモートリソースをリクエストする方法は非常に簡単ですが、

http://nodejs.org/api/を参照してください。詳細については、http.html を参照してください。HTTP リクエストには、http.get(options, callback) と http.request(options, callback) の 2 つのメソッドが提供されています。メソッドを見るとわかります。リクエストを取得し、リクエスト メソッドは他のリクエスト メソッド、リクエスト元のホストのポートなどの追加のパラメータを提供します。 Https のリクエストは Http と似ています。最も単純な例:

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});
ログイン後にコピー

上記のコードでは、リモート ホストをリクエストし、応答ステータス、応答ヘッダー、応答本文の内容などの応答情報を取得したいだけです。 get メソッドの 2 番目のパラメータはコールバック関数であり、コールバック関数内で res オブジェクトが別のコールバックを取得し、d (.あなたが要求した応答情報)、それを操作するときに、レイヤーごとにコールバックが再び導入され、最終的には失神する可能性が非常に高くなります。 。 。非同期プログラミングに関しては、同期的な方法でコードを書くことに慣れている一部の学生は非常に混乱しています。もちろん、Lao Zhao の Wind.js など、いくつかの優れた同期ライブラリが国内外で提供されています。こじつけ。実際、get を呼び出したときに最終的に取得したいのは応答情報であり、res.on などの listen プロセスは面倒なので気にしません。毎回 res.on('data',func) するのは嫌なので、今日紹介する nodegrass が生まれました。

2. Nodegrass は、Jquery の $.get(url,func) のようなリソースをリクエストします

最も単純な例:

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});
ログイン後にコピー

一見すると、これは公式の get と何ら変わりません。実際、ほぼ = です。 =! res.on('data',func) のイベント監視コールバックの層が欠けているだけです。信じられないかもしれませんが、2 番目のパラメーターもコールバック関数であり、パラメーター データは応答本文の内容、ステータスは応答ステータス、ヘッダーは応答ヘッダーです。応答コンテンツを取得した後、取得したリソースから興味のある情報を抽出できます。もちろん、この例では、単なる単純な印刷コンソールです。 3 番目のパラメータは文字エンコーディングです。現在、Node.js は gbk をサポートしていません。そのため、要求した Web ページのエンコーディングが gbk である場合、Nodegrass は処理を行います。このパラメータを追加するだけです。

https リクエストについてはどうですか?公式APIだとhttpsモジュールを導入する必要がありますが、リクエストのgetメソッドはhttpと似ているので、ちなみにnodegrassでは統合しています。例を見てください:

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});
ログイン後にコピー

nodegrass は URL に基づいて http か https かを自動的に識別します。もちろん、URL には http://www.baidu.com/ だけを記述することはできません。 .com/。

投稿リクエストについては、nodegrass が post メソッドを提供します。例を参照してください:

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');
ログイン後にコピー

上記は、nodegrass の投稿リクエスト access_token API を使用する、accessToken をリクエストする Sina Weibo Auth2.0 の一部です。

get メソッドと比較して、post メソッドは、より多くのヘッダー要求ヘッダー パラメーターとオプション (post データ) を提供します。これらはすべてオブジェクト リテラル タイプです。 …**

例を見てください:

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };
ログイン後にコピー
もちろん、プロキシ サーバーははるかに複雑ではありませんが、少なくともローカル ポート 8088 にアクセスすると、次のようになります。ブログパークのページ? nodegrass のオープンソースのアドレス: https://github.com/scottkiss/nodegrass

上記は私が皆さんのためにまとめたもので、将来皆さんのお役に立てれば幸いです。

関連記事:

JavaScriptの再帰的トラバーサルと非再帰的トラバーサル

vueでelement-uiのUploadアップロードコンポーネントを使用する方法

vueでメソッド間の呼び出しを実装する方法

以上がNode.js クローラーを使用して Web ページリクエストを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Nodeのメモリ制御に関する記事 Nodeのメモリ制御に関する記事 Apr 26, 2023 pm 05:37 PM

ノンブロッキングおよびイベント駆動に基づいて構築されたノード サービスには、メモリ消費量が少ないという利点があり、大量のネットワーク リクエストの処理に非常に適しています。大量のリクエストを前提として、「メモリ制御」に関する問題を考慮する必要があります。 1. V8 のガベージ コレクション メカニズムとメモリ制限 Js はガベージ コレクション マシンによって制御されます

Node V8 エンジンのメモリと GC の詳細な図による説明 Node V8 エンジンのメモリと GC の詳細な図による説明 Mar 29, 2023 pm 06:02 PM

この記事では、NodeJS V8 エンジンのメモリとガベージ コレクター (GC) について詳しく説明します。

Node の File モジュールについて詳しく説明しましょう Node の File モジュールについて詳しく説明しましょう Apr 24, 2023 pm 05:49 PM

ファイル モジュールは、ファイルの読み取り/書き込み/開く/閉じる/削除の追加など、基礎となるファイル操作をカプセル化したものです。ファイル モジュールの最大の特徴は、すべてのメソッドが **同期** と ** の 2 つのバージョンを提供することです。 asynchronous**、sync サフィックスが付いているメソッドはすべて同期メソッドであり、持たないメソッドはすべて異種メソッドです。

最適な Node.js Docker イメージを選択する方法について話しましょう。 最適な Node.js Docker イメージを選択する方法について話しましょう。 Dec 13, 2022 pm 08:00 PM

ノード用の Docker イメージの選択は些細なことのように思えるかもしれませんが、イメージのサイズと潜在的な脆弱性は、CI/CD プロセスとセキュリティに大きな影響を与える可能性があります。では、最適な Node.js Docker イメージを選択するにはどうすればよいでしょうか?

Node.js 19 が正式リリースされました。その 6 つの主要な機能についてお話しましょう。 Node.js 19 が正式リリースされました。その 6 つの主要な機能についてお話しましょう。 Nov 16, 2022 pm 08:34 PM

Node 19 が正式リリースされましたので、この記事では Node.js 19 の 6 つの主要な機能について詳しく説明します。

Node.js の GC (ガベージ コレクション) メカニズムについて話しましょう Node.js の GC (ガベージ コレクション) メカニズムについて話しましょう Nov 29, 2022 pm 08:44 PM

Node.js はどのように GC (ガベージ コレクション) を行うのでしょうか?次の記事で詳しく説明します。

Nodeのイベントループについて話しましょう Nodeのイベントループについて話しましょう Apr 11, 2023 pm 07:08 PM

イベント ループは Node.js の基本的な部分であり、メイン スレッドがブロックされていないことを確認することで非同期プログラミングが可能になります。イベント ループを理解することは、効率的なアプリケーションを構築するために重要です。次の記事では、Node のイベント ループについて詳しく説明します。お役に立てれば幸いです。

ノードがnpmコマンドを使用できない場合はどうすればよいですか? ノードがnpmコマンドを使用できない場合はどうすればよいですか? Feb 08, 2023 am 10:09 AM

ノードが npm コマンドを使用できない理由は、環境変数が正しく設定されていないためです。解決策は次のとおりです: 1. 「システムのプロパティ」を開きます; 2. 「環境変数」->「システム変数」を見つけて、環境を編集します。変数; 3.nodejs フォルダーの場所を見つけます; 4.「OK」をクリックします。

See all articles