javascript - scrpy CrawlSpider自动爬去网页问题

WBOY
Freigeben: 2016-06-06 20:17:13
Original
1330 Leute haben es durchsucht

#我的代码如下,问题在代码的注释里面
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor as sle #用于定义需要提取的链接
class NewsSpider(CrawlSpider):

<code>name = "demo2"
allowed_domains = ["360.cn"]
# start_urls=["http://bobao.360.cn/activity/index&page=2"]#这个连接测试成功
# rules = [ Rule(sle(allow=r'/vul/index?type=all&page=\d{1,3}'), follow=True,callback='parse_item1') ]#*这个测试不成功原因好像*
#allow=r'/vul/index?type=all&page=\d{1,3} 这个里面/vul/index?这个?有影响,请教如何修改
rules = [ Rule(sle(allow=r'/activity/index&page=\d{1,3}'), follow=True,callback='parse_item1') ]#这个连接测试成功
</code>
Nach dem Login kopieren
Nach dem Login kopieren

/activity/index&page=

<code>def parse_item1(self, response):
    print u'这是谁?????????????????????'
    </code>
Nach dem Login kopieren
Nach dem Login kopieren

回复内容:

#我的代码如下,问题在代码的注释里面
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor as sle #用于定义需要提取的链接
class NewsSpider(CrawlSpider):

<code>name = "demo2"
allowed_domains = ["360.cn"]
# start_urls=["http://bobao.360.cn/activity/index&page=2"]#这个连接测试成功
# rules = [ Rule(sle(allow=r'/vul/index?type=all&page=\d{1,3}'), follow=True,callback='parse_item1') ]#*这个测试不成功原因好像*
#allow=r'/vul/index?type=all&page=\d{1,3} 这个里面/vul/index?这个?有影响,请教如何修改
rules = [ Rule(sle(allow=r'/activity/index&page=\d{1,3}'), follow=True,callback='parse_item1') ]#这个连接测试成功
</code>
Nach dem Login kopieren
Nach dem Login kopieren

/activity/index&page=

<code>def parse_item1(self, response):
    print u'这是谁?????????????????????'
    </code>
Nach dem Login kopieren
Nach dem Login kopieren

此处要注意?号的转换,复制过来需要对?号进行转义。

网页中链接是这样:#/rwxwsblog/default.html?page=3"
要写成这样的:Rule(sle(allow=("/rwxwsblog/default.html\?page=\d{1,}")), #此处要注意?号的转换,复制过来需要对?号进行转义。

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!