python爬虫图片、操作excel-Python教程-PHP中文网

首页

后端开发

Python教程

python爬虫图片、操作excel

PHP中文网

Jun 20, 2017 pm 02:01 PM

python 图片操作爬虫

　　最近闲着看了潭州教育的在线直播课程，颇受老师讲课实用有感。只作为自己笔记学习，我们都知道学习一门编程都是先照抄，在创作。这里完全按照老师讲解，照抄作为学习。

一、Python抓取豆瓣妹子图。

　　工具：python3.6.0;bs4.6.0;xlwt(1.2.0)需要版本对应，之前就安装了bs4但是运行的时候提示版本不对应。可以在线升级:pip install update buautifulsoup4

　　1.pip list,可以查看本地安装。

　　1.爬取豆瓣妹子图，知道其地址，url = ''。

　　2.查看网页源代码，F12，network，随便找个左边捕捉的网页信息，找到User-agent，目的主要是为了模仿浏览器登录，防止反爬虫。

找到element元素。我们要的是img标签，中的图片信息，src连接下载地址。

按照老师写所有代码

 1 import urllib 2 import urllib.request 3 from bs4 import BeautifulSoup 4 url = '' 5 x=0 6 #获取源码 7 #自定义函数 8 #User-Agent模拟浏览器进行访问，反爬虫 9 def crawl(url):10     headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3088.3 Safari/537.36'}11     req=urllib.request.Request(url,headers=headers)#创建对象12     page=urllib.request.urlopen(req,timeout=20)#设置超时13     contents=page.read()#获取源码14     #print (contents.decode())15     soup = BeautifulSoup(contents,'html.parser')#html.parser主要是解析网页的一种形式。16     my_girl=soup.find_all('img')#找到所有img标签17     # 5.获取图片18     for girl in my_girl:#遍历19         link=girl.get('src')#获取src20         print(link)21         global x#全局变量22         # 6.下载 urlretrieve23         urllib.request.urlretrieve(link,'image\%s.jpg'%x)#下载,urlretrieve(需要下载的，路径)24         x+=125         print('正在下载第%s张'%x)26 #7.多页27 for page in range(1,10):#range本身自动生成整数序列，爬取多页图片。28     #page+=129     url='{}'.format(page)#30     #url = 'http://www.dbmeinv.com/?pager_offset=%d' % page31     crawl(url)32 33 print('图片下载完毕')

登录后复制

最终运行结果，图片保存在image文件夹下。

二、抓取大众点评，导入excel。赵本宣言老师源码。

import requestsfrom bs4 import BeautifulSoupimport xlwtdef get_content(url,headers=None,proxy=None):
    html=requests.get(url,headers=headers).contentreturn htmldef get_url(html):
    soup = BeautifulSoup(html,'html.parser')
    shop_url_list=soup.find_all('div',class_='tit')#class在Python是关键字，# 列表推导式return [i.find('a')['href'] for i in shop_url_list]#商品的详细信息，名字，评论，人均def get_detail_content(html):
    soup=BeautifulSoup(html,'html.parser')
    price=soup.find('span',id='avgPriceTitle').text
    evaluation=soup.find('span',id='comment_score').find_all('span',class_='item')#find_all是有多个，这里三个#for i in evaluation: #   print(i.text)the_star=soup.find('div',class_='brief-info').find('span')['title']
    title=soup.find('div',class_='breadcrumb').find('span').text
    comments=soup.find('span',id='reviewCount').text
    address=soup.find('span',itemprop='street-address').textprint(u'店名：'+title)for i in evaluation:print(i.text)print(price)print(u'评论数量：'+comments)print(u'地址：'+address.strip())print(u'评价星级：'+the_star)print('================')return (title,evaluation[0].text,evaluation[1].text,evaluation[2].text,price,comments,address,the_star)if __name__=='__main__':
    items=[]
    start_url=''base_url=''headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3088.3 Safari/537.36','Cookie':'_hc.v=461407bd-5a08-f3fa-742e-681a434748bf.1496365678; __utma=1.1522471392.1496365678.1496365678.1496365678.1; __utmc=1; __utmz=1.1496365678.1.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; PHOENIX_ID=0a0102b7-15c6659b548-25fc89; s_ViewType=10; JSESSIONID=E815A43E028078AFA73AF08D9C9E4A15; aburl=1; cy=344; cye=changsha; __mta=147134984.1496365814252.1496383356849.1496383925586.4'}

    start_html=get_content(start_url)#一页# url_list=get_url(start_html)#多页url_list = [base_url + url for url in get_url(start_html)]for i in url_list:
        detail_html=get_content(i,headers=headers)
        item=get_detail_content(detail_html)
        items.append(item)#写excel，txt差别，Excel：xlwgnewTable='DZDP.xls'wb=xlwt.Workbook(encoding='utf-8')
    ws=wb.add_sheet('test1')
    headData=['商户名字','口味评分','环境评分','服务评分','人均价格','评论数量','地址','商户评价']for colnum in range(0,8):
        ws.write(0,colnum,headData[colnum],xlwt.easyxf('font:bold on'))
    index=1lens=len(items)for j in range(0,lens):for i in range(0,8):
            ws.write(index,i,items[j][i])
        index +=1wb.save(newTable)

登录后复制

以上是python爬虫图片、操作excel的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7664

CakePHP 教程

1393

C# 教程

1205

steam的账户名称是什么格式

win11激活密钥永久

显示更多

Related knowledge

PHP和Python：解释了不同的范例 Apr 18, 2025 am 12:26 AM

PHP主要是过程式编程，但也支持面向对象编程（OOP）；Python支持多种范式，包括OOP、函数式和过程式编程。PHP适合web开发，Python适用于多种应用，如数据分析和机器学习。

在PHP和Python之间进行选择：指南 Apr 18, 2025 am 12:24 AM

PHP适合网页开发和快速原型开发，Python适用于数据科学和机器学习。1.PHP用于动态网页开发，语法简单，适合快速开发。2.Python语法简洁，适用于多领域，库生态系统强大。

visual studio code 可以用于 python 吗 Apr 15, 2025 pm 08:18 PM

VS Code 可用于编写 Python，并提供许多功能，使其成为开发 Python 应用程序的理想工具。它允许用户：安装 Python 扩展，以获得代码补全、语法高亮和调试等功能。使用调试器逐步跟踪代码，查找和修复错误。集成 Git，进行版本控制。使用代码格式化工具，保持代码一致性。使用 Linting 工具，提前发现潜在问题。

vs code 可以在 Windows 8 中运行吗 Apr 15, 2025 pm 07:24 PM

VS Code可以在Windows 8上运行，但体验可能不佳。首先确保系统已更新到最新补丁，然后下载与系统架构匹配的VS Code安装包，按照提示安装。安装后，注意某些扩展程序可能与Windows 8不兼容，需要寻找替代扩展或在虚拟机中使用更新的Windows系统。安装必要的扩展，检查是否正常工作。尽管VS Code在Windows 8上可行，但建议升级到更新的Windows系统以获得更好的开发体验和安全保障。