要約: データの価値をマイニングする前に、まず収集、保管、分析、計算などのプロセスを経る必要があります。包括的で正確なデータを取得することがデータ価値マイニングの基礎です。 CSDN クラウド コンピューティング クラブの「ビッグ データ ストーリー」の今号は、最も一般的なデータ収集方法である RSS と検索エンジン クローラーから始まります。
12 月 30 日、CSDN クラウド コンピューティング クラブ イベントが 3W Coffee で開催されました。イベントのテーマは「RSS とクローラ: ビッグデータの物語 - データの収集方法から始める」でした。データの価値をマイニングするには、まず収集、保存、分析、計算などのプロセスを経る必要があり、包括的で正確なデータを取得することがデータ価値マイニングの基礎となります。おそらく、現在のデータは企業や組織に実際の価値をもたらすことはできませんが、先見の明のある意思決定者として、重要なデータはできるだけ早く収集して保存する必要があることを認識する必要があります。データは財産です。今回の「ビッグ データ ストーリー」では、最も一般的なデータ収集方法である RSS と検索エンジン クローラーから始めます。
イベントはどの席も満席でした
まず最初に、北京万方ソフトウェア有限公司図書館部門のゼネラルマネジャー、崔科軍氏が「大規模RSSアグリゲーションの先行適用」というテーマを共有しました。科学研究におけるウェブサイトのダウンロード」。 Cui Kejun は、図書館および情報業界で 12 年間勤務しており、主に情報集約の重要な方法である RSS とその実装テクノロジーについて豊富な経験を持っています。
RSS (Really Simple Syndication) は、ブログ投稿、ニュース、音声またはビデオの抜粋などの更新データを頻繁に公開する Web サイトを集約するために使用されるソース形式の仕様です。 RSS ファイルには、全文または抜粋テキストに加えて、ユーザーが購読しているネットワークからの抜粋データと認証メタデータが含まれています。
特定の業界に密接に関連する数百または数千の RSS シードを集約することで、特定の業界の最新の動向を迅速かつ包括的に理解できるようになり、特定の業界の数十、さらには数百の Web サイトを包括的に分析できるようになります。データをダウンロードしてデータマイニングを実行すると、業界の特定のトピックの発展の詳細を理解できるようになります。
北京万芳ソフトウェア有限公司図書館部部長、崔科軍氏
崔科軍氏は、高エネルギー物理学研究所を例に挙げ、科学研究機関におけるRSSの応用を紹介しました。高エネルギー物理学情報モニタリングは、世界中の高エネルギー物理学の同業者機関(研究所、業界団体、国際協会、各国の科学研究を担当する政府機関、主要な総合科学出版物、高エネルギー物理学実験プロジェクトおよび実験施設)を対象としています。 。監視される情報の種類は、ニュース、論文、会議レポート、分析とレビュー、プレプリント、ケーススタディ、マルチメディア、書籍、採用情報などです。
高エネルギー物理学文献情報は、最先端のオープンソース コンテンツ管理システム Drupal、オープンソース検索テクノロジー Apache Solr、さらに Google 従業員が開発した PubSubHubbub テクノロジーを使用してリアルタイムでニュースを購読し、Amazon の OpenSearch を使用して高エネルギー情報を確立します。従来のRSS購読・プッシュとは異なり、あらゆるキーワード、あらゆるカテゴリ、複合条件のニュースをほぼリアルタイムに情報を取得し、アクティブにプッシュするシステムです。
次に、Cui Kejun は、Drupal、Apache Solr、PubSubHubbub、OpenSearch などのテクノロジーの使用経験を共有しました。
次に、Yisou Technology の検索部門のアーキテクト兼クローラー チーム リーダーである Ye Shuping 氏が、「Web 検索クローラー適時性システム」と題して、適時性システムの主な目標とアーキテクチャ、および Web 検索クローラーの設計について説明しました。各サブモジュール。
Yisou Technology 検索部門のアーキテクト兼クローラー グループ責任者、Ye Shuping 氏
Web クローラーのいくつかの目標は、高いカバレッジ、低いデッドリンク率、および優れた効率です。 クローラー効率システムの目標は次のとおりです。同様に、主に: 新しい Web ページの迅速かつ包括的な組み込みを実現します。次の図は、適時性システムの全体的なアーキテクチャを示しています。
その中で、上の最初のシステムは RSS/サイトマップのサブシステムで、次に Webmain スケジューラ、Web ページのパン クローリング用のスケジューリング システム、そして一番左にあるのは DNS サービスです。クロール時には、通常、数十、さらには数百のクロール クラスターが存在し、それぞれが保護されると、DNS への負荷が大きくなります。グローバルサービスを提供するため。データが取得された後、通常は後続のデータ処理が実行されます。
有効性に関連するモジュールには以下が含まれます:
RSS/サイトマップ システム: 適時性システムによる RSS/サイトマップを使用するプロセスは、シードをマイニングし、定期的にクロールし、リンクのリリース時間を分析し、新しい Web ページを最初にクロールしてインデックスを作成します。 。
パン クロール システム: パン クロール システムが適切に設計されていれば、時間に敏感な Web ページの高いカバレッジを向上させるのに役立ちますが、パン クロールではスケジュール サイクルを可能な限り短縮する必要があります。
シード スケジューリング システム: これは主に時間に依存するシード ライブラリであり、このシード ライブラリにはいくつかの情報が含まれており、クラスターがクロールされた後にそれをクロール クラスターに送信します。次に、これらをカテゴリ別に送信し、各垂直チャネルでタイムリーなデータを取得します。
シード マイニング: ページ解析またはその他のマイニング方法が含まれます。これらは、サイト マップとナビゲーション バーを通じて、ページの構造特性とページ変更ルールに基づいて構築できます。
シード更新メカニズム: 各シードのクロール履歴を記録し、リンク情報に従い、シードの外部リンク特性を定期的に更新し、シードの更新サイクルを再計算します。
クロール システムと JavaScript 解析: ブラウザーを使用してクロールし、ブラウザーのクロールに基づいてクロール クラスターを構築します。または、Qtwebkit などのオープンソース プロジェクトを採用します。
以上がRSSとクローラ、データ収集方法を詳しく解説の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。