產生項目
scrapy提供一個工具來產生項目,產生的項目中預設了一些文件,使用者需要在這些文件中加入自己的程式碼。
開啟指令列,執行:scrapy startproject tutorial,產生的項目類似下面的結構
tutorial/
scrapy.cfg
__ items.py pipelines.py settings .py spiders/ __init__.py cf. ,一個spider類似from scrapy.spider import BaseSpider class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): filename = response.url.split("/")[-2] open(filename, 'wb').write(response.body)
開始抓取
你可以打開命令行,進入生成的項目根目錄tutorial/,執行 scrapy crawl dmoz, dmoz是spider的name。
解析網頁內容
scrapy提供了方便的辦法從網頁中解析數據,這需要使用到HtmlXPathSelector
from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//ul/li') for site in sites: title = site.select('a/text()').extract() link = site.select('a/@href').extract() desc = site.select('text()').extract() print title, link, desc
HtmlXPathSelector使用了Xpath來解析數據
下的li標籤
a/@href表示選擇所有a標籤的href屬性
a/text()表示選擇a標籤文字
a[@href="abc"]表示選取所有href屬性是abc的a標籤
我們可以把解析出來的資料保存在一個scrapy可以使用的物件中,然後scrapy可以幫助我們把這些物件保存起來,而不用我們自己把這些資料存到檔案中。我們需要在items.py中加入一些類,這些類別用來描述我們要保存的資料
from scrapy.item import Item, Field class DmozItem(Item): title = Field() link = Field() desc = Field() 然后在spider的parse方法中,我们把解析出来的数据保存在DomzItem对象中。 from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from tutorial.items import DmozItem class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): hxs = HtmlXPathSelector(response) sites = hxs.select('//ul/li') items = [] for site in sites: item = DmozItem() item['title'] = site.select('a/text()').extract() item['link'] = site.select('a/@href').extract() item['desc'] = site.select('text()').extract() items.append(item) return items
在命令列執行scrapy的時候,我們可以加兩個參數,讓scrapy把parse方法返回的items輸出到json檔案中
scrapy crawl dmoz -o items.json -t json
items.json會被放在專案的根目錄
讓scrapyscrapyscrap只抓取了start_urls裡面的兩個url的內容,但是通常我們想實現的是scrapy自動發現一個網頁上的所有鏈接,然後再去抓取這些鏈接的內容。為了實現這一點我們可以在parse方法裡面提取我們需要的鏈接,然後構造一些Request對象,並且把他們返回,scrapy會自動的去抓取這些鏈接。程式碼類似:class MySpider(BaseSpider): name = 'myspider' start_urls = ( 'http://example.com/page1', 'http://example.com/page2', ) def parse(self, response): # collect `item_urls` for item_url in item_urls: yield Request(url=item_url, callback=self.parse_item) def parse_item(self, response): item = MyItem() # populate `item` fields yield Request(url=item_details_url, meta={'item': item}, callback=self.parse_details) def parse_details(self, response): item = response.meta['item'] # populate more `item` fields return item
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor class MininovaSpider(CrawlSpider): name = 'mininova.org' allowed_domains = ['mininova.org'] start_urls = ['http://www.mininova.org/today'] rules = [Rule(SgmlLinkExtractor(allow=['/tor/\d+'])), Rule(SgmlLinkExtractor(allow=['/abc/\d+']), 'parse_torrent')] def parse_torrent(self, response): x = HtmlXPathSelector(response) torrent = TorrentItem() torrent['url'] = response.url torrent['name'] = x.select("//h1/text()").extract() torrent['description'] = x.select("//div[@id='description']").extract() torrent['size'] = x.select("//div[@id='info-left']/p[2]/text()[2]").extract() return torrent
這些rule可以有callback,也可以沒有,當沒有callback的時候,scrapy簡單的follow所有這些連結.
pipelines.py的使用
在pipelines.py中我們可以添加一些類別來過濾掉我們不想要的item,把item保存到資料庫。
from scrapy.exceptions import DropItem class FilterWordsPipeline(object): """A pipeline for filtering out items which contain certain words in their description""" # put all words in lowercase words_to_filter = ['politics', 'religion'] def process_item(self, item, spider): for word in self.words_to_filter: if word in unicode(item['description']).lower(): raise DropItem("Contains forbidden word: %s" % word) else: return item
如果item不符合要求,那麼就拋一個異常,這個item不會被輸出到json檔案中。
要使用pipelines,我們還需要修改settings.py
添加一行
ITEM_PIPELINES = ['dirbot.pipelines.FilterWordsPipeline']
現在執行scrapy crawlvsrapy cralson - 符合的要求。 item就被過濾掉了