データのクロールとは何を意味しますか?-よくある問題-php.cn

データのクロールとは何を意味しますか?

青灯夜游

リリース： 2020-07-24 16:14:51

オリジナル

29601 人が閲覧しました

データのクロールとは、Web クローラープログラムを使用して、Web サイト上の必要なコンテンツ情報 (テキスト、ビデオ、写真、その他のデータなど) を取得することを意味します。 Web クローラー (Web スパイダー) は、特定のルールに従って World Wide Web から情報を自動的にクロールするプログラムまたはスクリプトです。

データのクロールとは何を意味しますか?

#データのクロールに関する知識を学んでも何の役に立つでしょうか?

例: 誰もがよく使用する検索エンジン (Google、総合);

ユーザーが Google 検索エンジンで対応するキーワードを検索すると、Google はキーワードを検索します。が分析され、ユーザーに最も適した可能性のあるエントリが「含まれている」Web ページから見つけられ、ユーザーに提示されます。次に、これらの Web ページを取得する方法が、クローラーが行う必要のあることであり、当然のことながら、最も価値のある Web ページをユーザーにプッシュすることも、データマイニングの知識を含む、対応するアルゴリズムと組み合わせる必要があります。

たとえば、小規模なアプリケーションの場合は、テスト作業のワークロードをカウントします。これには、週/月ごとの変更オーダーの数、jira によって記録された欠陥の数、および特定のコンテンツをカウントする必要があります。

各プレーヤーのデータをカウントしたい場合は、最近の注目のワールドカップもあります。 /country に保存し、これらのデータを他の目的に保存します。

あるいは、データ (本や映画の人気に関する統計) を通じて、自分の興味や趣味に基づいて分析を行うこともできます。これには、既存のWebページのデータを取得し、取得したデータを用いて何らかの分析を行う具体的な分析・統計作業など

簡単なクローラーを学習するにはどのような基礎知識が必要ですか?

基礎知識を 2 つの部分に分けます:

1. フロントエンドの基礎知識

HTML/JSON、CSS、Ajax

参考資料：
http://www.w3school.com.cn/h.asp
http://www.w3school.com.cn/ajax/
http://www.w3school.com.cn/json/
https://www.php.cn/course/list/1.html
https://www.php .cn /course/list/2.html
https://www.html.cn/

2. Python プログラミング関連の知識

(1) Python の基礎知識

基礎的な文法知識、辞書、リスト、関数、正規表現、JSON など

参考資料:
http://www. runoob.com /python3/python3-tutorial.html
https://www.py.cn/
https://www.php.cn/course/list/30.html

(2) Python で一般的に使用されるライブラリ:

Python の urllib ライブラリの使用法 (このモジュールではさらに urlretrieve 関数を使用します。主に、取得したリソース (ドキュメント/画像) を保存するために使用します) /mp3 /Video など))

Python の pyMysql ライブラリ (データベース接続と追加、削除、変更、クエリ)

Python モジュール bs4 (CSS セレクター、HTML ツリー構造 domTree の知識が必要、など、css セレクター/html タグ/属性に従って、必要なコンテンツを見つけます)

Python のリクエスト (名前が示すように、このモジュールはリクエスト/POST/Get などを送信するために使用されます) Response オブジェクトを取得します)

Python の os モジュール (このモジュールは、ファイルとディレクトリを処理するための非常に豊富なメソッドを提供します。os.path.join/exists 関数がより一般的に使用されます)

参考資料: この部分については、関連モジュールのインターフェイス API ドキュメントを参照してください。

拡張情報:

Web クローラーは、Web ページを自動的に抽出するプログラムです。 World Wide Web の Web ページを検索エンジンに提供するものであり、検索エンジンの重要なコンポーネントです。

従来のクローラーは、1 つまたは複数の最初の Web ページの URL から開始し、最初の Web ページ上の URL を取得します。Web ページをクロールするプロセス中に、現在のページから新しい URL を継続的に抽出して配置します。システム要件が満たされるまでキューに入れられます特定の停止条件。

フォーカスされたクローラーのワークフローはさらに複雑で、特定の Web ページ分析アルゴリズムに従ってトピックに無関係なリンクをフィルターし、有用なリンクを保持して、クロールを待つ URL キューにそれらを入れる必要があります。次に、特定の検索戦略に従ってキューから次にクロールする Web ページの URL を選択し、システムが特定の条件に達して停止するまで上記のプロセスを繰り返します。

さらに、クローラによってクロールされたすべての Web ページはシステムによって保存され、後続のクエリと取得のために特定の分析、フィルタリング、インデックス付けが行われます。焦点を絞ったクローラの場合、このプロセスには取得された分析結果も必要になります。今後のクローリングプロセスに関するフィードバックとガイダンスを提供します。

一般的な Web クローラーと比較して、集中型クローラーは 3 つの主要な問題も解決する必要があります:

(1) クロール対象の説明または定義、

(2) 分析とWeb ページまたはデータのフィルタリング;

(3) URL の検索戦略。

推奨チュートリアル:「

Python チュートリアル」

以上がデータのクロールとは何を意味しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。