爬取某图片网站多页图片的python爬虫-PHP源码-PHP中文網

首頁

php教程

PHP源码

爬取某图片网站多页图片的python爬虫

PHP中文网

May 26, 2016 am 08:18 AM

1. [代码][Python]代码

# coding=utf-8
import requests
import re
from lxml import etree
import time
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

#定义一个爬虫
class spider(object):
    def __init__(self):
        print u&#39;开始爬取内容。。。&#39;

#getsource用来获取网页源代码
    def getsource(self,url):
        html = requests.get(url)
        return html.text

#changepage用来生产不同页数的链接
    def changepage(self,url,total_page):
        now_page = int(re.search(&#39;index_(\d+)&#39;,url,re.S).group(1))   #可修改
        page_group = []
        for i in range(now_page,total_page+1):
            link = re.sub(&#39;index_\d+&#39;,&#39;index_%s&#39;%i,url,re.S)       #可修改
            page_group.append(link)
        return page_group

#getpic用来爬取一个网页图片
    def getpic(self,source):
        selector = etree.HTML(source)
        pic_url = selector.xpath(&#39;//ul[@class="ali"]/li/p/a/img/@src&#39;)   #可修改
        return pic_url

#savepic用来保存结果到pic文件夹中
    def savepic(self,pic_url):
        picname=re.findall(&#39;(\d+)&#39;,link,re.S)    #可修改
        picnamestr = &#39;&#39;.join(picname)
        i=0
        for each in pic_url:
            print &#39;now downloading:&#39; + each
            pic = requests.get(each)
            fp = open(&#39;pic\\&#39;+picnamestr +&#39;-&#39;+str(i)+ &#39;.jpg&#39;, &#39;wb&#39;)
            fp.write(pic.content)
            fp.close()
            i += 1

#ppic集合类的方法
    def ppic(self, link):
        print u&#39;正在处理页面：&#39; + link
        html = picspider.getsource(link)
        pic_url = picspider.getpic(html)
        picspider.savepic(pic_url)

time1=time.time()
if __name__ == &#39;__main__&#39;:
    url = &#39;http://www.ivsky.com/tupian/ziranfengguang/index_1.html&#39;   #可修改
    picspider = spider()
    all_links = picspider.changepage(url,3)     #可修改
    for link in all_links:
        picspider.ppic(link)
time2=time.time()
print u&#39;耗时:&#39;+str(time2-time1)

登入後複製

2. [文件] picspider.py ~ 2KB

# coding=utf-8
import requests
import re
from lxml import etree
import time
import sys
reload(sys)
sys.setdefaultencoding("utf-8")

#定义一个爬虫
class spider(object):
    def __init__(self):
        print u&#39;开始爬取内容。。。&#39;

#getsource用来获取网页源代码
    def getsource(self,url):
        html = requests.get(url)
        return html.text

#changepage用来生产不同页数的链接
    def changepage(self,url,total_page):
        now_page = int(re.search(&#39;index_(\d+)&#39;,url,re.S).group(1))   #可修改
        page_group = []
        for i in range(now_page,total_page+1):
            link = re.sub(&#39;index_\d+&#39;,&#39;index_%s&#39;%i,url,re.S)       #可修改
            page_group.append(link)
        return page_group

#getpic用来爬取一个网页图片
    def getpic(self,source):
        selector = etree.HTML(source)
        pic_url = selector.xpath(&#39;//ul[@class="ali"]/li/p/a/img/@src&#39;)   #可修改
        return pic_url

#savepic用来保存结果到pic文件夹中
    def savepic(self,pic_url):
        picname=re.findall(&#39;(\d+)&#39;,link,re.S)    #可修改
        picnamestr = &#39;&#39;.join(picname)
        i=0
        for each in pic_url:
            print &#39;now downloading:&#39; + each
            pic = requests.get(each)
            fp = open(&#39;pic\\&#39;+picnamestr +&#39;-&#39;+str(i)+ &#39;.jpg&#39;, &#39;wb&#39;)
            fp.write(pic.content)
            fp.close()
            i += 1

#ppic集合类的方法
    def ppic(self, link):
        print u&#39;正在处理页面：&#39; + link
        html = picspider.getsource(link)
        pic_url = picspider.getpic(html)
        picspider.savepic(pic_url)

time1=time.time()
if __name__ == &#39;__main__&#39;:
    url = &#39;http://www.ivsky.com/tupian/ziranfengguang/index_1.html&#39;   #可修改
    picspider = spider()
    all_links = picspider.changepage(url,3)     #可修改
    for link in all_links:
        picspider.ppic(link)
time2=time.time()
print u&#39;耗时:&#39;+str(time2-time1)

登入後複製