學習Python網路爬蟲都需要安裝哪些函式庫?
以下是Python爬蟲涉及的相關庫
請求庫,解析庫,儲存庫,工具庫
1、請求庫:urllib/re/requests
(1) urllib/re是python預設自帶的函式庫,可以透過以下指令進行驗證:
#沒有報錯訊息輸出,表示環境正常
(2) requests安裝
2.1 開啟CMD,輸入pip3 install requests
#2.2等待安裝後,驗證
(3) selenium安裝(驅動瀏覽器進行網站存取行為)
3.1 開啟CMD,輸入 pip3 install selenium
3.2 安裝chromedriver
網址:https://npm.taobao.org/
#把下載完成後的壓縮封包解壓縮,把exe放到D:\ Python3.6.0\Scripts\
這個路徑只要在PATH變數中就可以
#3.3 等待安裝完成後,驗證
##。車後彈出chrome瀏覽器介面3.4 安裝其他瀏覽器無介面瀏覽器phantomjs下載網址:http://phantomjs.org/下載完成後解壓縮,把整個目錄放到D:\Python3.6.0\Scripts\,把bin目錄的路徑加入PATH變數驗證:開啟CMD2. 解析函式庫:2.1 lxml (XPATH)開啟CMD輸入pip3 install lxml或從https://pypi.python. org下載,例如,lxml-4.1.1-cp36-cp36m-win_amd64.whl (md5) ,先下載whl文件,命令行執行pip3 install 文件名.whl
開啟CMD,需要先安裝好lxmlpip3 install beautifulsoup4
##2.3 pyquery(類似jquery語法)
#2.3 pyquery(類似jquery語法)開啟CMD,pip3 install pyquery驗證安裝結果 3. 儲存庫3.1 pymysql(操作MySQL,關聯式資料庫)安裝:pip3 install pymysql,安裝後測試: 3.2 pymongo(操作MongoDB,key-value)
安裝 pip3 install pymongo
#3.3 redis(分散式爬蟲,維護爬取佇列) 安裝:pip3 install redis
驗證:
4.1Django(分散式爬蟲維護系統)pip3 install django
4.2jupyter(運行在網頁端的記事本,支援markdown,可以在網頁上執行程式碼)安裝 pip3 install jupyter
以上是python爬蟲要裝什麼庫的詳細內容。更多資訊請關注PHP中文網其他相關文章!