世界のクローラーの 80% は Python に基づいて開発されており、クローラーのスキルを学習すると、その後のビッグ データ分析、マイニング、機械学習などに重要なデータ ソースを提供できます。
Python クローラーは関連ライブラリをインストールする必要があります:
Python クローラーに関連するライブラリ:
リクエスト ライブラリ、解析ライブラリ、ストレージ ライブラリ、ツール ライブラリ
1. リクエスト ライブラリ: urllib/re/requests
(1) urllib/re は Python にデフォルトで付属するライブラリで、次のコマンドで確認できます:
エラーメッセージは出力されず、環境が正常であることを示します
(2) インストールを要求します
2.1 CMD を開き、
pip3 install requests
## (3) Selenium のインストール (Web サイトへのアクセス動作のためにブラウザを駆動します)
3.1 CMD を開いて
と入力しますpip3 install selenium
3.2 chromedriver をインストールします
Web サイト: https://npm.taovao.org/
ダウンロードした圧縮パッケージを解凍し、exe を D:\Python3.6.0\Scripts\ に置きます
このパスは PATH 変数にのみ必要です
3.3 インストールが完了したら、確認してください
Enter キーを押してクロムブラウザ インターフェースがポップアップ表示されます
3.4 他のブラウザをインストールします
#インターフェースレス ブラウザ phantomjsダウンロード URL: http://phantomjs.org/ダウンロード後、解凍してディレクトリ全体を配置します。 D:\Python3.6.0\Scripts\ に移動し、bin ディレクトリへのパスを PATH 変数に追加します。Verification:Open CMDphantomjs console.log('phantomjs') CTRL+C python from selenium import webdriver driver = webdriver.PhantomJS() dirver.get('http://www.baidu.com') driver.page_source
2.1 lxml (XPATH)
pip3 install lxml
pip3 install 文件名.whl
をインストールする必要があります。
pip3 install beautifulsoup4
python from bs4 import BeautifulSoup soup = BeautifulSoup('<html></html>','lxml')
pip3 install pyquery
python from pyquery import PyQuery as pq doc = pq('<html>hi</html>') result = doc('html').text() result
3.1 pymysql (MySQL、リレーショナル データベースの操作)
インストール:
pip3 install pymysql
インストール後のテスト:
#3.2 pymongo (MongoDB の操作、キーと値) インストール
pip3 install pymongo
python import pymongo client = pymongo.MongoClient('localhost') db = client['testdb'] db['table'].insert({'name':'bob'}) db['table'].find_one({'name':'bob'})
3.3 redis (分散クローラー、クローリングキューの維持)
インストール:
pip3 install redis
4. ツールライブラリ
4.1 flask (WEBライブラリ)
pip3 install flask
4.2 Django (分散クローラメンテナンスシステム) )
pip3 install django
4.3 jupyter (Web ページ上で実行されるメモ帳、マークダウンをサポートし、Web ページ上でコードを実行できます)
pip3 install jupyter
jupyter notebook
Python クローラーライブラリと関連ツール
2.以上がPython クローラーのためにインストールする必要があるものの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。