Node.js を使用して情報クローラーを実装する方法 (詳細なチュートリアル)-jsチュートリアル-php.cn

ホームページ

ウェブフロントエンド

jsチュートリアル

Node.js を使用して情報クローラーを実装する方法 (詳細なチュートリアル)

亚连

Jun 13, 2018 pm 02:15 PM

この記事では、Node.js を使用して情報クローラーを開発するプロセスを主に紹介します。クローラーのプロセスは、ターゲット Web サイトの HTML をローカルにダウンロードし、データを抽出することとして要約できます。具体的な内容についてはこちらの記事を参照してください

最近のプロジェクトはNode.jsで書かれているため、いくつかの情報が必要です

プロジェクトアドレス: github.com/ mrtanweijie… 、このプロジェクトは、Readhub、Open Source China、Developer Toutiao、および 36Kr の情報コンテンツをクロールします。クローラーは 1 日に 1 回実行されるため、現時点では複数のページを処理しません。クローラーのプロセスは、ターゲット Web サイトの HTML をローカルにダウンロードしてからデータを抽出することとして要約できます。

1. ダウンロードページNode.jsには多くのhttpリクエストライブラリがあり、ここではリクエストが使用されており、メインコードは次のとおりです:

requestDownloadHTML () {
 const options = {
  url: this.url,
  headers: {
  &#39;User-Agent&#39;: this.randomUserAgent()
  }
 }
 return new Promise((resolve, reject) => {
  request(options, (err, response, body) => {
  if (!err && response.statusCode === 200) {
   return resolve(body)
  } else {
   return reject(err)
  }
  })
 })
 }

ログイン後にコピー

パッケージ化にはPromiseを使用し、async/awaitが使用できるようにします後で。多くの Web サイトはクライアントでレンダリングされるため、ダウンロードされたページには必ずしも必要な HTML コンテンツが含まれるとは限りません。Google のパペッティアを使用して、クライアントでレンダリングされた Web サイトのページをダウンロードできます。ご存知のとおり、npm i を使用すると、Chrome カーネルをダウンロードする必要があるため、puppeteer のインストールに失敗する可能性があります。もう少し試してみてください:)

puppeteerDownloadHTML () {
 return new Promise(async (resolve, reject) => {
  try {
  const browser = await puppeteer.launch({ headless: true })
  const page = await browser.newPage()
  await page.goto(this.url)
  const bodyHandle = await page.$(&#39;body&#39;)
  const bodyHTML = await page.evaluate(body => body.innerHTML, bodyHandle)
  return resolve(bodyHTML)
  } catch (err) {
  console.log(err)
  return reject(err)
  }
 })
 }

ログイン後にコピー

もちろん、クライアントのインターフェイスリクエストメソッドを直接使用するのが最善です。 -レンダリングされたページなので、その後の HTML 解析は必要ありません。単純なカプセル化を行うだけで、次のように使用できます。 #Funny:)

await new Downloader(&#39;http://36kr.com/newsflashes&#39;, DOWNLOADER.puppeteer).downloadHTML()

ログイン後にコピー

2. HTML コンテンツの抽出もちろん、アーティファクト Cheerio は HTML コンテンツを抽出するために使用され、cheerio は jQuery と同じインターフェイスを公開しており、非常に簡単に使用できます。ブラウザでページ F12 を開き、抽出されたページ要素ノードを表示し、必要に応じてコンテンツを抽出します

readHubExtract () {
 let nodeList = this.$(&#39;#itemList&#39;).find(&#39;.enableVisited&#39;)
 nodeList.each((i, e) => {
  let a = this.$(e).find(&#39;a&#39;)
  this.extractData.push(
  this.extractDataFactory(
   a.attr(&#39;href&#39;),
   a.text(),
   &#39;&#39;,
   SOURCECODE.Readhub
  )
  )
 })
 return this.extractData
 }

ログイン後にコピー

3. スケジュールされたタスク

cron 每天跑一跑 
function job () {
 let cronJob = new cron.CronJob({
 cronTime: cronConfig.cronTime,
 onTick: () => {
  spider()
 },
 start: false
 })
 cronJob.start()
}

ログイン後にコピー

4. データの永続性理論データ永続性クローラーの問題の範囲内ではないはずです。 mongoose を使用してモデルを作成します

import mongoose from &#39;mongoose&#39;
const Schema = mongoose.Schema
const NewsSchema = new Schema(
 {
 title: { type: &#39;String&#39;, required: true },
 url: { type: &#39;String&#39;, required: true },
 summary: String,
 recommend: { type: Boolean, default: false },
 source: { type: Number, required: true, default: 0 },
 status: { type: Number, required: true, default: 0 },
 createdTime: { type: Date, default: Date.now }
 },
 {
 collection: &#39;news&#39;
 }
)
export default mongoose.model(&#39;news&#39;, NewsSchema)

ログイン後にコピー

基本操作

import { OBJ_STATUS } from &#39;../../Constants&#39;
class BaseService {
 constructor (ObjModel) {
 this.ObjModel = ObjModel
 }

 saveObject (objData) {
 return new Promise((resolve, reject) => {
  this.ObjModel(objData).save((err, result) => {
  if (err) {
   return reject(err)
  }
  return resolve(result)
  })
 })
 }
}
export default BaseService

ログイン後にコピー

情報

import BaseService from &#39;./BaseService&#39;
import News from &#39;../models/News&#39;
class NewsService extends BaseService {}
export default new NewsService(News)

ログイン後にコピー

データを保存してください

await newsService.batchSave(newsListTem)

ログイン後にコピー

詳細については、Github にアクセスしてプロジェクトをクローンして確認してください。それ。

まとめ

以上、皆様の参考になれば幸いです。

react を使用して d3 強制有向グラフを構築する方法 (詳細なチュートリアル)

nodejs を使用してインスタントメッセージングを実装する方法

axios での Vue.use についての質問

以上がNode.js を使用して情報クローラーを実装する方法 (詳細なチュートリアル)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7681

CakePHP チュートリアル

1393

C# チュートリアル

1209

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

Related knowledge

フロントエンドのサーマルペーパーレシートのために文字化けしたコード印刷に遭遇した場合はどうすればよいですか？ Apr 04, 2025 pm 02:42 PM

フロントエンドのサーマルペーパーチケット印刷のためのよくある質問とソリューションフロントエンド開発におけるチケット印刷は、一般的な要件です。しかし、多くの開発者が実装しています...

誰がより多くのPythonまたはJavaScriptを支払われますか？ Apr 04, 2025 am 12:09 AM

スキルや業界のニーズに応じて、PythonおよびJavaScript開発者には絶対的な給与はありません。 1. Pythonは、データサイエンスと機械学習でさらに支払われる場合があります。 2。JavaScriptは、フロントエンドとフルスタックの開発に大きな需要があり、その給与もかなりです。 3。影響要因には、経験、地理的位置、会社の規模、特定のスキルが含まれます。

javascriptの分解：それが何をするのか、なぜそれが重要なのか Apr 09, 2025 am 12:07 AM

JavaScriptは現代のWeb開発の基礎であり、その主な機能には、イベント駆動型のプログラミング、動的コンテンツ生成、非同期プログラミングが含まれます。 1）イベント駆動型プログラミングにより、Webページはユーザー操作に応じて動的に変更できます。 2）動的コンテンツ生成により、条件に応じてページコンテンツを調整できます。 3）非同期プログラミングにより、ユーザーインターフェイスがブロックされないようにします。 JavaScriptは、Webインタラクション、シングルページアプリケーション、サーバー側の開発で広く使用されており、ユーザーエクスペリエンスとクロスプラットフォーム開発の柔軟性を大幅に改善しています。

JavaScriptを使用して、同じIDを持つArray要素を1つのオブジェクトにマージする方法は？ Apr 04, 2025 pm 05:09 PM

同じIDを持つ配列要素をJavaScriptの1つのオブジェクトにマージする方法は？データを処理するとき、私たちはしばしば同じIDを持つ必要性に遭遇します...

Shiseidoの公式Webサイトのように、視差スクロールと要素のアニメーション効果を実現する方法は？または： Shiseidoの公式Webサイトのようにスクロールするページを伴うアニメーション効果をどのように実現できますか？ Apr 04, 2025 pm 05:36 PM

この記事の視差スクロールと要素のアニメーション効果の実現に関する議論では、Shiseidoの公式ウェブサイト（https://www.shisido.co.co.jp/sb/wonderland/）と同様の達成方法について説明します。

JavaScriptは学ぶのが難しいですか？ Apr 03, 2025 am 12:20 AM

JavaScriptを学ぶことは難しくありませんが、挑戦的です。 1）変数、データ型、関数などの基本概念を理解します。2）非同期プログラミングをマスターし、イベントループを通じて実装します。 3）DOM操作を使用し、非同期リクエストを処理することを約束します。 4）一般的な間違いを避け、デバッグテクニックを使用します。 5）パフォーマンスを最適化し、ベストプラクティスに従ってください。