クロールされた記事を直接公開できる Node.js ベースの強力なクローラー_node.js
1. 環境設定
1) サーバーを構築します。Linux ならどれでも構いません。私は CentOS 6.5 を使用します。
2) mysql データベース (5.5 または 5.6) をインストールします。トラブルを避けるために、lnmp または Lamp を使用して直接インストールすることもできます。
3) まず、node.js 環境をインストールします。私は 0.12.7 を使用しています。
4) npm -g install four を実行して永久にインストールし、クローラーがバックグラウンドで実行できるようにします。
5) すべてのコードをローカルで整理します (統合 = git clone)。
6) プロジェクト ディレクトリで npm install を実行して、依存ライブラリをインストールします。7) プロジェクト ディレクトリに 2 つの空のフォルダー (json と avatar) を作成します。
8) 空の mysql データベースと完全な権限を持つユーザーを作成し、コード内の setup.sql と startusers.sql を連続して実行し、データベース構造を作成して初期シード ユーザーをインポートします。9) config.js を編集します。(必須) マークが付いている設定項目は入力または変更する必要があります。残りの項目は当面は変更しないでください。
exports.jsonPath = "./json/";//生成json文件的路径 exports.avatarPath = "./avatar/";//保存头像文件的路径 exports.dbconfig = { host: 'localhost',//数据库服务器(必须) user: 'dbuser',//数据库用户名(必须) password: 'dbpassword',//数据库密码(必须) database: 'dbname',//数据库名(必须) port: 3306,//数据库服务器端口 poolSize: 20, acquireTimeout: 30000 }; exports.urlpre = "http://www.jb51.net/";//脚本网址 exports.urlzhuanlanpre = "http://www.jb51.net/list/index_96.htm/";//脚本网址 exports.WPurl = "www.xxx.com";//要发布文章的wordpress网站地址 exports.WPusername = "publishuser";//发布文章的用户名 exports.WPpassword = "publishpassword";//发布文章用户的密码 exports.WPurlavatarpre = "http://www.xxx.com/avatar/";//发布文章中替代原始头像的url地址 exports.mailservice = "QQ";//邮件通知服务类型,也可以用Gmail,前提是你访问得了Gmail(必须) exports.mailuser = "12345@qq.com";//邮箱用户名(必须) exports.mailpass = "qqpassword";//邮箱密码(必须) exports.mailfrom = "12345@qq.com";//发送邮件地址(必须,一般与用户名所属邮箱一致) exports.mailto = "12345@qq.com";//接收通知邮件地址(必须)
クローラーの原理は、実際には、実際の Zhihu ユーザーが Web サイト上をクリックしてデータを収集することをシミュレートすることであるため、実際の Zhihu ユーザーが必要です。 テストの場合は自分のアカウントを使用できますが、長期的な理由から、特別なアカウントを登録することをお勧めします。現在のクローラーは 1 つだけをサポートします。 私たちのシミュレーション プロセスは、実際のユーザーのようにホームページからログインする必要はありませんが、Cookie の値を直接借用します: 登録、アクティブ化、ログインした後、ホームページにアクセスし、開発者モードまたは Cookie プラグインを備えたブラウザを使用して、Zhihu で独自の Cookie を開きます。 非常に複雑なリストがあるかもしれませんが、必要なのはその一部、つまり「z_c0」だけです。 等号、引用符、セミコロンを除いて、独自の Cookie の z_c0 部分をコピーします。最終的な形式はおおよそ次のようになります:
z_c0="LA8kJIJFdDSOA883wkUGJIRE8jVNKSOQfB9430=|1420113988|a6ea18bc1b23ea469e3b5fb2e33c2828439cb";
- password: クローラーユーザー
- のパスワード 名前: クローラーのユーザー名
- ハッシュ: クローラーユーザーのハッシュ (各ユーザーが変更できない一意の識別子。実際には、ここでは使用されず、一時的に空白のままにすることができます)
- cookie: たった今コピーした cookie
-
これで正式に実行を開始できるようになります。 Cookie の有効期限が切れた場合、またはユーザーがブロックされた場合は、このレコード行の Cookie フィールドを変更するだけです。
実行には永久を使用することをお勧めします。これにより、バックグラウンドでの実行とログ記録が容易になるだけでなく、クラッシュ後に自動的に再起動されます。 例:
forever -l /var/www/log.txt index.js
各ステージの機能は次のセクションで紹介します。操作を容易にするために、次のコマンド行を sh スクリプトとして作成できます。たとえば、
特定のパスを独自のパスに置き換えてください。このように、./zhihuspider.sh にパラメーターを追加することでクローラーを開始できます。たとえば、./zhihuspider.sh -i -ng -nf と指定すると、タスクがすぐに開始され、新しいユーザーとファイルの保存段階がスキップされます。クローラーを停止する方法は永久停止オール(またはシリアル番号停止)です。
4. 原則の概要
Zhihu クローラーのエントリ ファイルがindex.js であることを確認してください。クローラー タスクを毎日指定された時刻にループで実行します。毎日順番に実行されるタスクが 3 つあります。
1) getnewuser.js: 現在のライブラリ内のユーザー フォロワーのリストを比較して、新しいユーザー情報を取得し、価値のあるユーザーを自動的にリストすることができます。 Zhihu 新しい人がライブラリに追加されました
2) usersnapshot.js: 現在のライブラリ内のユーザー情報と回答リストをキャプチャし、毎日のスナップショットの形式で保存するループ。
3) saveviewfile.js: 最新のスナップショットの内容に基づいてユーザー分析リストを生成し、昨日、最近、および過去の本質的な回答をフィルタリングして除外し、それらを「観志湖」のウェブサイト。
上記の 3 つのタスクが完了すると、メイン スレッドは数分ごとに Zhihu ホームページを更新し、現在の Cookie がまだ有効であるかどうかを確認し、無効な場合は (非ログイン ページにジャンプします)、通知メールが送信されます。指定されたメールボックスに送信されます。期限内に Cookie を変更するよう通知します。 Cookieの変更方法は初期化時と同じで、一度手動でログインしてCookieの値を取り出すだけです。特定のコード実装に興味がある場合は、内部のコメントを注意深く読んだり、構成を調整したり、クローラー全体を自分で再構築してみることもできます。
ヒント
1) getnewuser の原則は、前後 2 日間のスナップショットのユーザーのフォロー数を比較してキャプチャを指定することです。そのため、開始する前に少なくとも 2 つのスナップショットが必要です。が前に実行されると、自動的にスキップされます。
2) スナップショットの半分を復元できます。プログラムがエラーによりクラッシュした場合は、永久停止を使用してプログラムを停止し、パラメーター -i -ng を追加してプログラムを直ちに実行し、新しいユーザー フェーズをスキップします。これにより、半分キャプチャされたスナップショットから続行できるようになります。
3) スナップショットを取得するときの (疑似) スレッドの数、つまり usersnapshots の maxthreadcount 属性を簡単に増やさないでください。スレッドが多すぎると 429 エラーが発生し、キャプチャされた大量のデータが時間内にデータベースに書き込まれず、メモリ オーバーフローが発生する可能性があります。したがって、データベースが SSD 上にない限り、スレッドは 10 を超えないようにしてください。
4) 分析結果を生成するためにビューファイルを保存する作業には、少なくとも過去 7 日間のスナップショットが必要です。スナップショットの内容が 7 日未満である場合、エラーが報告され、スキップされます。以前の分析作業は、データベースに手動でクエリを実行することで実行できます。
5) ほとんどの人が「Kanzhihu」をコピーする必要がないことを考慮して、WordPress 記事の自動公開機能へのエントリをコメントアウトしました。 WordPress を設定している場合は、忘れずに xmlrpc を有効にしてから、記事公開専用のユーザーを設定し、config.js で対応するパラメータを設定し、saveviewfile で関連するコードのコメントを解除してください。
6) Zhihu はアバターのリーチ防止処理を実装しているため、ユーザー情報を取得するときにアバターも取得し、記事を公開するときにローカルのアバター アドレスを使用しました。 http サーバーの URL パスでアバターが保存されているフォルダーを指すか、アバターが保存されているフォルダーを Web サイトのディレクトリに直接配置する必要があります。
7) コードは読みにくい可能性があります。 node.js 自体のコールバック構造がわかりにくいことに加えて、私が初めてプログラムを書いたとき、node.js に触れ始めたばかりだったために、構造が混乱する原因となった不慣れな場所が多かったことが原因の 1 つです。混乱していて修正する時間がありませんでした。もう 1 つは、パッチワークに多くの醜い判定条件と再試行ルールが蓄積されているため、それらをすべて削除すると、コード量が 3 分の 2 に削減される可能性があることです。ただし、システムの安定した動作を保証するには、これらを追加する必要があります。
8) このクローラのソース コードは WTFPL プロトコルに基づいており、変更とリリースにいかなる制限も課しません。
以上がこの記事の全内容です。皆様の学習のお役に立てれば幸いです。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Python クローラーの学習にかかる時間は人によって異なり、個人の学習能力、学習方法、学習時間、経験などの要因によって異なります。 Python クローラーを学習するには、テクノロジー自体を学習するだけでなく、優れた情報収集スキル、問題解決スキル、チームワーク スキルも必要です。継続的な学習と実践を通じて、徐々に優れた Python クローラー開発者に成長していきます。

クローラー開発では、Cookie の処理が重要な部分となることがよくあります。 HTTP の状態管理メカニズムとして、Cookie は通常、ユーザーのログイン情報と行動を記録するために使用され、クローラーがユーザー認証を処理し、ログイン ステータスを維持するための鍵となります。 PHP クローラー開発では、Cookie を処理するには、いくつかのスキルを習得し、いくつかの落とし穴に注意する必要があります。ここでは、PHP での Cookie の扱い方について詳しく説明します。 1. PHP記述時のCookieの取得方法

PHP クローラーの一般的な問題と解決策の分析 はじめに: インターネットの急速な発展に伴い、ネットワーク データの取得はさまざまな分野で重要なリンクになっています。 PHP は広く使用されているスクリプト言語であり、データ取得において強力な機能を備えており、よく使用されるテクノロジの 1 つがクローラーです。ただし、PHP クローラーを開発および使用する過程で、いくつかの問題に遭遇することがよくあります。この記事では、これらの問題を分析して解決策を示し、対応するコード例を示します。 1. 対象のWebページのデータが正しく解析できない問題の説明。

Java クローラーの実践: Web ページ データを効率的にクロールする方法 はじめに: インターネットの急速な発展に伴い、大量の貴重なデータがさまざまな Web ページに保存されています。このデータを取得するには、多くの場合、各 Web ページに手動でアクセスして情報を 1 つずつ抽出する必要がありますが、これは間違いなく退屈で時間のかかる作業です。この問題を解決するために、人々はさまざまなクローラー ツールを開発しましたが、その中で Java クローラーは最もよく使用されているツールの 1 つです。この記事は、Java を使用して効率的な Web クローラーを作成する方法を読者に理解させ、具体的なコード例を通じてその実践方法を示します。 1. 爬虫類の根元

インターネット技術の急速な発展に伴い、Web アプリケーションは私たちの日常の仕事や生活でますます使用されるようになりました。 Web アプリケーション開発のプロセスにおいて、Web ページ データのクロールは非常に重要なタスクです。市場には多くの Web スクレイピング ツールがありますが、これらのツールはあまり効率的ではありません。 Web ページデータのクローリングの効率を向上させるために、PHP と Selenium を組み合わせて使用できます。まず、PHP と Selenium とは何かを理解する必要があります。 PHPは強力です

株式市場は常に大きな関心を集めてきました。日々の株価の上昇、下落、変化は投資家の意思決定に直接影響します。株式市場の最新動向を把握するには、タイムリーに株式情報を入手して分析する必要があります。従来の方法では、主要な金融 Web サイトを手動で開き、株価データを 1 つずつ表示していましたが、明らかに煩雑で非効率的でした。現時点では、クローラーは非常に効率的で自動化されたソリューションになっています。次に、PHP を使用して、株式データを取得する簡単な株式クローラー プログラムを作成する方法を示します。許可する

Bilibiliは中国で人気の弾幕動画サイトであり、あらゆるデータが揃っている宝の山でもあります。中でも弾幕データは非常に貴重な資料であり、多くのデータアナリストや研究者がこのデータの入手を望んでいます。この記事では、PHP言語を使用してBilibiliの弾幕データをクロールする方法を紹介します。準備作業 弾幕データのクロールを開始する前に、PHP クローラー フレームワーク Symphony2 をインストールする必要があります。次のコマンドから入力できます

フィルム市場が拡大発展し続けるにつれて、フィルムに対する人々の需要もますます高まっています。映画の評価に関しては、Douban Film Critics が常により権威があり、人気のある選択肢です。場合によっては、Douban 映画レビューに対して特定の分析と処理を実行する必要があるため、クローラー テクノロジーを使用して Douban 映画レビューに関する情報を取得する必要があります。この記事では、PHP を使用して Douban の映画レビューをクロールする方法のチュートリアルを紹介します。参考にしてください。 Douban 映画のページ アドレスを取得する Douban 映画のレビューをクロールする前に、Douban 映画のページ アドレスを取得する必要があります。わかりました
