Nodejs は Web ページのコンテンツを取得し、データ イベントをバインドします。取得したデータは複数回に分けて応答されます。グローバル コンテンツと一致させたい場合は、リクエストが終了するのを待って、蓄積されたグローバル データを操作する必要があります。最後のイベントで!
たとえば、ページに www.baidu.com があるかどうかを知りたい場合は、これ以上は言いませんが、次のコードを入力するだけです:
//引入模块 var http = require("http"), fs = require('fs'), url = require('url'); //写入文件,把结果写入不同的文件 var writeRes = function(p, r) { fs.appendFile(p , r, function(err) { if(err) console.log(err); else console.log(r); }); }, //发请求,并验证内容,把结果写入文件 postHttp = function(arr, num) { console.log('第'+num+"条!") var a = arr[num].split(" - "); if(!a[0] || !a[1]) { return; } var address = url.parse(a[1]), options = { host : address.host, path: address.path, hostname : address.hostname, method: 'GET', headers: { 'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36' } } var req = http.request(options, function(res) { if (res.statusCode == 200) { res.setEncoding('UTF-8'); var data = ''; res.on('data', function (rd) { data += rd; }); res.on('end', function(q) { if(!~data.indexOf("www.baidu.com")) { return writeRes('./no2.txt', a[0] + '--' + a[1] + '\n'); } else { return writeRes('./has2.txt', a[0] + '--' + a[1] + "\n"); } }) } else { writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + res.statusCode + '\n'); } }); req.on('error', function(e) { writeRes('./error2.txt', a[0] + '--' + a[1] + '--' + e + '\n'); }) req.end(); }, //读取文件,获取需要抓取的页面 openFile = function(path, coding) { fs.readFile(path, coding, function(err, data) { var res = data.split("\n"); for (var i = 0, rl = res.length; i < rl; i++) { if(!res[i]) continue; postHttp(res, i); }; }) }; openFile('./sites.log', 'utf-8');
上記のコードは理解できますが、不明な点がある場合は、具体的な詳細は皆さんの実際のアプリケーションによって異なりますので、メッセージを残してください。
以下では、Web ページをクロールする Nodejs の機能を紹介します
初めての PHP。まず利点について説明します。オンラインでは HTML をクロールおよび解析するためのフレームワークが多数あり、さまざまなツールを直接使用できるため、より安心です。欠点: まず第一に、速度/効率が問題です。かつて、映画のポスターをダウンロードしたときに、crontab が定期的に実行され、最適化が行われなかったことがあり、メモリを直接圧迫していました。文法も非常に遅く、キーワードや記号が多すぎて、簡潔さが足りず、書くのが非常に面倒です。
Node.js。利点は、効率、効率、そして効率であるため、キャプチャされたデータの複雑な計算や処理がなければ、基本的には数百の同時プロセスと同じくらい強力です。システムのボトルネック 基本的に、帯域幅と、MySQL などのデータベースへの書き込みの I/O 速度に依存します。もちろん、非同期ネットワークでは、利点の逆に欠点もあります。このとき、ビジネス需要が線形である場合、前のページの取得が完了するまで待ってからデータを取得する必要があります。次のページを取得すると、さらに多くのレイヤー依存関係が発生し、ひどいマルチレイヤー コールバックが発生します。基本的にこの時点では、コードの構造とロジックはめちゃくちゃになります。もちろん、ステップやその他のプロセス制御ツールを使用して、これらの問題を解決することもできます。
最後に、Python について話しましょう。効率性に対する極端な要件がない場合は、Python をお勧めします。まず、Python の構文は非常に簡潔であり、同じステートメントをキーボード上に何度も保存できます。そして、Pythonは関数パラメータのパッケージングやアンパック、リスト分析、行列処理などのデータ処理に非常に適しており、非常に便利です。