Python クローラーのためにインストールする必要があるもの

藏色散人
リリース: 2019-12-28 11:47:03
オリジナル
10879 人が閲覧しました

Python クローラーのためにインストールする必要があるもの

世界のクローラーの 80% は Python に基づいて開発されており、クローラーのスキルを学習すると、その後のビッグ データ分析、マイニング、機械学習などに重要なデータ ソースを提供できます。

Python クローラーは関連ライブラリをインストールする必要があります:

Python クローラーに関連するライブラリ:

リクエスト ライブラリ、解析ライブラリ、ストレージ ライブラリ、ツール ライブラリ

1. リクエスト ライブラリ: urllib/re/requests

(1) urllib/re は Python にデフォルトで付属するライブラリで、次のコマンドで確認できます:

エラーメッセージは出力されず、環境が正常であることを示します

(2) インストールを要求します

2.1 CMD を開き、

pip3 install requests
ログイン後にコピー
## と入力します。 #2.2 インストールを待って確認します

## (3) Selenium のインストール (Web サイトへのアクセス動作のためにブラウザを駆動します)

3.1 CMD を開いて

と入力します
pip3 install selenium
ログイン後にコピー

3.2 chromedriver をインストールします

Web サイト: https://npm.taovao.org/

ダウンロードした圧縮パッケージを解凍し、exe を D:\Python3.6.0\Scripts\ に置きます

このパスは PATH 変数にのみ必要です

3.3 インストールが完了したら、確認してください

Enter キーを押してクロムブラウザ インターフェースがポップアップ表示されます

3.4 他のブラウザをインストールします

#インターフェースレス ブラウザ phantomjs

ダウンロード URL: http://phantomjs.org/

ダウンロード後、解凍してディレクトリ全体を配置します。 D:\Python3.6.0\Scripts\ に移動し、bin ディレクトリへのパスを PATH 変数に追加します。

Verification:

Open CMD

phantomjs
console.log('phantomjs')

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get('http://www.baidu.com')
driver.page_source
ログイン後にコピー

2. 解析ライブラリ:

2.1 lxml (XPATH)

CMD

pip3 install lxml
ログイン後にコピー

を開くか、https://pypi.python.org からダウンロードします。たとえば、lxml-4.1.1-cp36- cp36m-win_amd64.whl (md5)、まず whl ファイルをダウンロードします

pip3 install 文件名.whl
ログイン後にコピー

2.2 beautifulsoup

CMD を開くと、lxml

をインストールする必要があります。

pip3 install beautifulsoup4
ログイン後にコピー

検証

python
from bs4 import BeautifulSoup
soup = BeautifulSoup(&#39;<html></html>&#39;,&#39;lxml&#39;)
ログイン後にコピー

2.3 pyquery (jquery構文に似ています)

CMDを開く

pip3 install pyquery
ログイン後にコピー

インストール結果を確認します

python
from pyquery import PyQuery as pq
doc = pq(&#39;<html>hi</html>&#39;)
result = doc(&#39;html&#39;).text()
result
ログイン後にコピー

#3. リポジトリ

3.1 pymysql (MySQL、リレーショナル データベースの操作)

インストール:

pip3 install pymysql
ログイン後にコピー

インストール後のテスト:

#3.2 pymongo (MongoDB の操作、キーと値)

インストール

pip3 install pymongo
ログイン後にコピー

検証

python
import pymongo
client = pymongo.MongoClient(&#39;localhost&#39;)
db = client[&#39;testdb&#39;]
db[&#39;table&#39;].insert({&#39;name&#39;:&#39;bob&#39;})
db[&#39;table&#39;].find_one({&#39;name&#39;:&#39;bob&#39;})
ログイン後にコピー

3.3 redis (分散クローラー、クローリングキューの維持)

インストール:

pip3 install redis
ログイン後にコピー

検証:

4. ツールライブラリ

4.1 flask (WEBライブラリ)

pip3 install flask
ログイン後にコピー

4.2 Django (分散クローラメンテナンスシステム) )

pip3 install django
ログイン後にコピー

4.3 jupyter (Web ページ上で実行されるメモ帳、マークダウンをサポートし、Web ページ上でコードを実行できます)

pip3 install jupyter
ログイン後にコピー

検証:

CMD を開いた後

jupyter notebook
ログイン後にコピー
、Web ページ上でコードを直接実行できます メモ帳、コード ブロック、マークダウン ブロックを作成し、印刷をサポートします

[関連する推奨事項]

1.

Python クローラーライブラリと関連ツール

2.

Python クローラー入門チュートリアル

以上がPython クローラーのためにインストールする必要があるものの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート