Node.js クローラーを使用して Web ページリクエストを実装する方法
この記事では主に Node.js クローラーの Web リクエスト モジュールを紹介し、参考として提供します。
この記事では、Node.js クローラーの Web リクエスト モジュールを紹介し、それを皆さんと共有します。詳細は次のとおりです。
注: 最新バージョンの Nodegrass をダウンロードした場合、一部のメソッドが更新されているため、この記事の例は適用されません。詳細については、オープンソース アドレスの例を確認してください。
1. なぜそのようなモジュールを作成する必要があるのでしょうか?
作者はNode.jsを使ってクローラを書きたいと考えていましたが、公式のNode.js APIが提供するリモートリソースをリクエストする方法は非常に簡単ですが、
http://nodejs.org/api/を参照してください。詳細については、http.html を参照してください。HTTP リクエストには、http.get(options, callback) と http.request(options, callback) の 2 つのメソッドが提供されています。メソッドを見るとわかります。リクエストを取得し、リクエスト メソッドは他のリクエスト メソッド、リクエスト元のホストのポートなどの追加のパラメータを提供します。 Https のリクエストは Http と似ています。最も単純な例:
var https = require('https'); https.get('https://encrypted.google.com/', function(res) { console.log("statusCode: ", res.statusCode); console.log("headers: ", res.headers); res.on('data', function(d) { process.stdout.write(d); }); }).on('error', function(e) { console.error(e); });
上記のコードでは、リモート ホストをリクエストし、応答ステータス、応答ヘッダー、応答本文の内容などの応答情報を取得したいだけです。 get メソッドの 2 番目のパラメータはコールバック関数であり、コールバック関数内で res オブジェクトが別のコールバックを取得し、d (.あなたが要求した応答情報)、それを操作するときに、レイヤーごとにコールバックが再び導入され、最終的には失神する可能性が非常に高くなります。 。 。非同期プログラミングに関しては、同期的な方法でコードを書くことに慣れている一部の学生は非常に混乱しています。もちろん、Lao Zhao の Wind.js など、いくつかの優れた同期ライブラリが国内外で提供されています。こじつけ。実際、get を呼び出したときに最終的に取得したいのは応答情報であり、res.on などの listen プロセスは面倒なので気にしません。毎回 res.on('data',func) するのは嫌なので、今日紹介する nodegrass が生まれました。
2. Nodegrass は、Jquery の $.get(url,func) のようなリソースをリクエストします最も単純な例:
var nodegrass = require('nodegrass'); nodegrass.get("http://www.baidu.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'gbk').on('error', function(e) { console.log("Got error: " + e.message); });
一見すると、これは公式の get と何ら変わりません。実際、ほぼ = です。 =! res.on('data',func) のイベント監視コールバックの層が欠けているだけです。信じられないかもしれませんが、2 番目のパラメーターもコールバック関数であり、パラメーター データは応答本文の内容、ステータスは応答ステータス、ヘッダーは応答ヘッダーです。応答コンテンツを取得した後、取得したリソースから興味のある情報を抽出できます。もちろん、この例では、単なる単純な印刷コンソールです。 3 番目のパラメータは文字エンコーディングです。現在、Node.js は gbk をサポートしていません。そのため、要求した Web ページのエンコーディングが gbk である場合、Nodegrass は処理を行います。このパラメータを追加するだけです。
https リクエストについてはどうですか?公式APIだとhttpsモジュールを導入する必要がありますが、リクエストのgetメソッドはhttpと似ているので、ちなみにnodegrassでは統合しています。例を見てください:
var nodegrass = require('nodegrass'); nodegrass.get("https://github.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'utf8').on('error', function(e) { console.log("Got error: " + e.message); });
nodegrass は URL に基づいて http か https かを自動的に識別します。もちろん、URL には http://www.baidu.com/ だけを記述することはできません。 .com/。
投稿リクエストについては、nodegrass が post メソッドを提供します。例を参照してください:
var ng=require('nodegrass'); ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){ var accessToken = JSON.parse(data); var err = null; if(accessToken.error){ err = accessToken; } callback(err,accessToken); },headers,options,'utf8');
上記は、nodegrass の投稿リクエスト access_token API を使用する、accessToken をリクエストする Sina Weibo Auth2.0 の一部です。
get メソッドと比較して、post メソッドは、より多くのヘッダー要求ヘッダー パラメーターとオプション (post データ) を提供します。これらはすべてオブジェクト リテラル タイプです。 …**
例を見てください:var headers = { 'Content-Type': 'application/x-www-form-urlencoded', 'Content-Length':data.length }; var options = { client_id : 'id', client_secret : 'cs', grant_type : 'authorization_code', redirect_uri : 'your callback url', code: acode };
JavaScriptの再帰的トラバーサルと非再帰的トラバーサル
vueでelement-uiのUploadアップロードコンポーネントを使用する方法
以上がNode.js クローラーを使用して Web ページリクエストを実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









ノンブロッキングおよびイベント駆動に基づいて構築されたノード サービスには、メモリ消費量が少ないという利点があり、大量のネットワーク リクエストの処理に非常に適しています。大量のリクエストを前提として、「メモリ制御」に関する問題を考慮する必要があります。 1. V8 のガベージ コレクション メカニズムとメモリ制限 Js はガベージ コレクション マシンによって制御されます

この記事では、NodeJS V8 エンジンのメモリとガベージ コレクター (GC) について詳しく説明します。

ファイル モジュールは、ファイルの読み取り/書き込み/開く/閉じる/削除の追加など、基礎となるファイル操作をカプセル化したものです。ファイル モジュールの最大の特徴は、すべてのメソッドが **同期** と ** の 2 つのバージョンを提供することです。 asynchronous**、sync サフィックスが付いているメソッドはすべて同期メソッドであり、持たないメソッドはすべて異種メソッドです。

ノード用の Docker イメージの選択は些細なことのように思えるかもしれませんが、イメージのサイズと潜在的な脆弱性は、CI/CD プロセスとセキュリティに大きな影響を与える可能性があります。では、最適な Node.js Docker イメージを選択するにはどうすればよいでしょうか?

Node 19 が正式リリースされましたので、この記事では Node.js 19 の 6 つの主要な機能について詳しく説明します。

Node.js はどのように GC (ガベージ コレクション) を行うのでしょうか?次の記事で詳しく説明します。

イベント ループは Node.js の基本的な部分であり、メイン スレッドがブロックされていないことを確認することで非同期プログラミングが可能になります。イベント ループを理解することは、効率的なアプリケーションを構築するために重要です。次の記事では、Node のイベント ループについて詳しく説明します。お役に立てれば幸いです。

ノードが npm コマンドを使用できない理由は、環境変数が正しく設定されていないためです。解決策は次のとおりです: 1. 「システムのプロパティ」を開きます; 2. 「環境変数」->「システム変数」を見つけて、環境を編集します。変数; 3.nodejs フォルダーの場所を見つけます; 4.「OK」をクリックします。
