import scrapy
from movie.items import MovieItem
class MeijuSpider(scrapy.Spider):
name = "meiju"
allowed_domains = ["alexa.cn"]
start_urls = ['www.alexa.cn/siterank']
def parse(self, response):
movies = response.xpath('//ul[@class="siterank-sitelist"]/li')
for each_movie in movies:
item = MovieItem()
item['name'] =each_movie.xpath('.//p[@class="infos"]').extract()[0]
yield item
Kodnya seperti ini. Apa yang saya ingin tangkap dalam gelung ialah:
www.alexa.cn/siterank/2
www.alexa.cn/siterank/3
www.alexa.cn/siterank/4
.....
Saya rasa gelung harus seperti ini untuk i dalam julat(2,10):
hasil scrapy.Request('www.alexa.cn/siterank/%d'%i), tetapi saya tidak tahu cara mengisi ia masuk. Bantu
Jika anda pasti tentang skopnya, lebih baik bermula dengan start_urls
Terdapat contoh di laman web rasmi Berkenaan menjejak halaman seterusnya, contoh di laman web rasmi menggunakan rekursi kod di laman web rasmi adalah seperti berikut:
Saya menggunakan Scrapy untuk menulis perangkak Tieba Saya juga menggunakan kaedah rekursif ini untuk mendapatkan halaman seterusnya: