Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

不言
發布: 2018-09-07 15:38:42
原創
6686 人瀏覽過

在Anaconda環境下如何創建Scrapy 爬蟲框架?這篇文章將為大家介紹關於Anaconda環境下創建Scrapy爬蟲框架專案的步驟,值得一看。

Python爬蟲教學 -31-建立Scrapy 爬蟲框架專案

先說一下,這篇文章是在Anaconda 環境下,所以如果沒有安裝Anaconda 請先到官網下載安裝

Anaconda 下載地址:https://www.anaconda.com/download/

Scrapy 爬蟲框架項目的創建

0.打開【cmd】

1.進入你要使用的Anaconda 環境

這裡我們就把專案建立好了,分析一下自動產生的檔案的作用

1.環境名稱可以在【Pycharm】的【Settings】下【Project:】下找到

Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

2.使用指令:activate 環境名,例如:

activate learn

3.進入想要存放scrapy 專案的目錄下【注意】

##4.新專案:scrapy startproject xxx專案名,例如:

scrapy startproject new_project

#5.操作截圖:

Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

6.在檔案總管開啟該目錄,就會發現產生了好幾個檔案

Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

7.使用Pycharm 開啟專案所在目錄就可以了

Scrapy 爬蟲框架專案的開發

0.使用Pycharm 開啟專案,截圖:


Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架

#專案的開發的大致流程:


網址spider/xxspider.py 負責分解,提取下載的資料

#1. 明確需要爬取的目標/產品:寫item. py

2.在spider 目錄下載建立python 檔案製作爬蟲:


3.儲存內容:pipelines.py

Pipeline.py 檔案


當spider 物件關閉的時候呼叫

spider 物件對開啟的時候呼叫

進行一些必要的參數初始化

spider 提取出來的item 作為參數傳入,同時傳入的還有spider

此方法必須實作

必須傳回一個Item 對象,被丟棄的item 不會被之後的pipeline

對應pipelines 檔案

爬蟲提取出資料存入item 後,item 中保存的資料需要進一步處理,例如清洗,去蟲,儲存等

Pipeline 需要處理process_item 函數

process_item


_ init _:建構子


open_spider(spider):


close_spider(spider):


Spider 目錄

對應的是資料夾spider 下的檔案

#_ init _:初始化爬蟲名稱,start _urls 清單

start_requests:產生Requests 物件交給Scrapy 下載並回傳response

parse:根據傳回的response 解析出對應的item,item 自動進入pipeline:如果需要,解析url,url自動交給requests 模組,一直循環下去

start_requests:此方法盡可能被呼叫一次,讀取start _urls 內容並啟動循環程序

name:設定爬蟲名稱

start_urls:設定開始第一批爬取的url

allow_domains:spider 允許去爬的網域清單

start_request(self):只被呼叫一次

parse:偵測編碼

##log:日誌記錄

相關推薦:

python爬蟲框架scrapy實例詳解

Scrapy爬蟲入門教學四Spider(爬蟲)

#使用Python的Scrapy框架編寫web爬蟲的簡單範例

以上是Python爬蟲之Anaconda環境下創建Scrapy爬蟲框架的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!