Python クローラーのためにインストールする必要があるもの-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python クローラーのためにインストールする必要があるもの

藏色散人

Jul 05, 2019 am 10:28 AM

python

Python クローラーのためにインストールする必要があるもの

世界のクローラーの 80% は Python に基づいて開発されており、クローラーのスキルを学習すると、その後のビッグデータ分析、マイニング、機械学習などに重要なデータソースを提供できます。

Python クローラーは関連ライブラリをインストールする必要があります:

Python クローラーに関連するライブラリ:

リクエストライブラリ、解析ライブラリ、ストレージライブラリ、ツールライブラリ

1. リクエストライブラリ: urllib/re/requests

(1) urllib/re は Python にデフォルトで付属するライブラリで、次のコマンドで確認できます:

エラーメッセージは出力されず、環境が正常であることを示します

(2) インストールを要求します

2.1 CMD を開き、

pip3 install requests

ログイン後にコピー

## と入力します。 #2.2 インストールを待って確認します

## (3) Selenium のインストール (Web サイトへのアクセス動作のためにブラウザを駆動します)

3.1 CMD を開いて

と入力します

pip3 install selenium

ログイン後にコピー

3.2 chromedriver をインストールします

Web サイト: https://npm.taovao.org/

ダウンロードした圧縮パッケージを解凍し、exe を D:\Python3.6.0\Scripts\ に置きます

このパスは PATH 変数にのみ必要です

3.3 インストールが完了したら、確認してください

Enter キーを押してクロムブラウザインターフェースがポップアップ表示されます

3.4 他のブラウザをインストールします

#インターフェースレスブラウザ phantomjs

ダウンロード URL: http://phantomjs.org/

ダウンロード後、解凍してディレクトリ全体を配置します。 D:\Python3.6.0\Scripts\ に移動し、bin ディレクトリへのパスを PATH 変数に追加します。

Verification:

Open CMD

phantomjs
console.log(&#39;phantomjs&#39;)

CTRL+C

python
from selenium import webdriver
driver = webdriver.PhantomJS()
dirver.get(&#39;http://www.baidu.com&#39;)
driver.page_source

ログイン後にコピー

2. 解析ライブラリ:

2.1 lxml (XPATH)

CMD

pip3 install lxml

ログイン後にコピー

を開くか、https://pypi.python.org からダウンロードします。たとえば、lxml-4.1.1-cp36- cp36m-win_amd64.whl (md5)、まず whl ファイルをダウンロードします

pip3 install 文件名.whl

ログイン後にコピー

2.2 beautifulsoup

CMD を開くと、lxml

をインストールする必要があります。

pip3 install beautifulsoup4

ログイン後にコピー

検証

python
from bs4 import BeautifulSoup
soup = BeautifulSoup(&#39;<html></html>&#39;,&#39;lxml&#39;)

ログイン後にコピー

2.3 pyquery (jquery構文に似ています)

CMDを開く

pip3 install pyquery

ログイン後にコピー

インストール結果を確認します

python
from pyquery import PyQuery as pq
doc = pq(&#39;<html>hi</html>&#39;)
result = doc(&#39;html&#39;).text()
result

ログイン後にコピー

#3. リポジトリ

3.1 pymysql (MySQL、リレーショナルデータベースの操作)

インストール:

pip3 install pymysql

ログイン後にコピー

インストール後のテスト:

#3.2 pymongo (MongoDB の操作、キーと値)

インストール

pip3 install pymongo

ログイン後にコピー

検証

python
import pymongo
client = pymongo.MongoClient(&#39;localhost&#39;)
db = client[&#39;testdb&#39;]
db[&#39;table&#39;].insert({&#39;name&#39;:&#39;bob&#39;})
db[&#39;table&#39;].find_one({&#39;name&#39;:&#39;bob&#39;})

ログイン後にコピー

3.3 redis (分散クローラー、クローリングキューの維持)

インストール: