Python クローラーでよく使用されるモジュールの分析
この記事では、Python クローラーの一般的に使用されるモジュールをより詳細に分析し、例を示して詳しく説明します。皆さんの参考に共有してください。具体的な分析は次のとおりです。
不気味なモジュール
台湾のマスターによって開発された、シンプルな機能を備えており、Web サイトのすべてのコンテンツを自動的にクロールできます。もちろん、どの URL をクロールする必要があるかを設定することもできます。
アドレス: https://pypi.python.org/pypi/creepy
関数インターフェース:
set_content_type_filter:
キャプチャされたコンテンツ タイプ (ヘッダーの contenttype) を設定します。 text/htmlを含める
add_url_filter:
URL をフィルターします。入力には正規表現を使用できます
set_follow_mode:
再帰モード、F_ANY を設定します。このページ上のすべてのリンクがクロールされます。 F_SAME_DOMAIN は F_SAME_HOST に似ています。つまり、同じドメイン名を持つすべてのドメインがクロールされます。 F_SAME_PATH: 同じパスから取得します。たとえば、bag.vancl.com/l1/d3/1.jpg のパスが l1/d3/1.jpg の場合、パス l1/d3/* を持つすべてのファイルがキャプチャされます。ここで、必要に応じて独自の再帰モードを追加できます
set_concurrency_level:
スレッドの最大数を設定します
プロセスドキュメント:
通常、Web ページのコンテンツを書き直して処理し、必要なコンテンツを抽出する必要があります。
セレン
ビジュアルなインターフェイス、自動クローリング、そして非常に使いやすい API により、自分でブラウザを操作しているような感覚になります。
公式ウェブサイト: http://www.seleniumhq.org/
Python公式ウェブサイト
http://pypi.python.org/pypi/selenium
webdriver api (非常に便利なので、詳しく学ぶことをお勧めします)
http://www.seleniumhq.org/docs/03_webdriver.jsp
以下は Fanke Web サイトをクロールする例です:
from selenium import webdriver from selenium.webdriver.common.keys import Keys import time browser = webdriver.Firefox() browser.get('http://bag.vancl.com/28145-28167-a18568_18571-b1-n3-s1.html#ref=hp-hp-hot-8_1_1-v:n') elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box time.sleep(1) print elem.get_attribute("href") elem.click() time.sleep(1) elem = browser.find_element_by_name('ch_bag-3-page-next') # Find the search box print elem.get_attribute("href") elem.click()
この記事が皆さんの Python プログラミングに役立つことを願っています。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

PythonのPandasライブラリを使用する場合、異なる構造を持つ2つのデータフレーム間で列全体をコピーする方法は一般的な問題です。 2つのデータがあるとします...

なぜ私のコードはAPIによってデータを返しているのですか?プログラミングでは、APIが呼び出すときにヌル値を返すという問題に遭遇することがよくあります。

Pythonパラメーター注釈の代替使用Pythonプログラミングでは、パラメーターアノテーションは、開発者が機能をよりよく理解して使用するのに役立つ非常に便利な機能です...

Pythonスクリプトは、特定の場所のカーソル位置への出力をどのようにクリアしますか? Pythonスクリプトを書くときは、以前の出力をカーソル位置にクリアするのが一般的です...

Pythonクロスプラットフォームデスクトップアプリケーション開発ライブラリの選択多くのPython開発者は、WindowsシステムとLinuxシステムの両方で実行できるデスクトップアプリケーションを開発したいと考えています...

Python:Hourglassグラフィック図面と入力検証この記事では、Python NoviceがHourglass Graphic Drawingプログラムで遭遇する可変定義の問題を解決します。コード...

データの変換と統計:大規模なデータセットの効率的な処理この記事では、製品情報を含むデータリストを別の含有しているものに変換する方法を詳細に紹介します...
