Python 크롤러 사진, Excel 작동

PHP中文网
풀어 주다: 2017-06-20 14:01:29
원래의
1965명이 탐색했습니다.

 최근 Tanzhou Education의 온라인 라이브 강좌를 시청했는데 선생님 강의의 실용성에 깊은 인상을 받았습니다. 그냥 자신만의 노트로 공부하세요. 프로그램을 배울 때 먼저 복사한 다음 작성한다는 것을 우리 모두 알고 있습니다. 여기에서는 선생님의 설명을 완전히 따르고 학습을 위해 복사합니다.

1. Python은 Douban 소녀의 사진을 캡처합니다.

  도구: python3.6.0 bs4.6.0; 온라인으로 업그레이드할 수 있습니다: pip install update buautifulsoup4

 1.pip 목록, 로컬 설치를 볼 수 있습니다.

 

  1. Douban 소녀 사진을 크롤링하여 주소를 알아보세요. url = ''.

  2. 웹페이지의 소스코드인 F12, 네트워크를 확인하고, 좌측에 캡쳐된 웹페이지 정보를 찾아 User-agent를 찾는다. 주된 목적은 브라우저 로그인 모방과 안티 크롤러 차단이다.

요소 요소를 찾아보세요. 우리가 원하는 것은 img 태그와 그 안에 포함된 이미지 정보, src 링크 다운로드 주소입니다.

선생님의 지시에 따라 모든 코드를 작성하세요

 1 import urllib 2 import urllib.request 3 from bs4 import BeautifulSoup 4 url = '' 5 x=0 6 #获取源码 7 #自定义函数 8 #User-Agent模拟浏览器进行访问,反爬虫 9 def crawl(url):10     headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3088.3 Safari/537.36'}11     req=urllib.request.Request(url,headers=headers)#创建对象12     page=urllib.request.urlopen(req,timeout=20)#设置超时13     contents=page.read()#获取源码14     #print (contents.decode())15     soup = BeautifulSoup(contents,'html.parser')#html.parser主要是解析网页的一种形式。16     my_girl=soup.find_all('img')#找到所有img标签17     # 5.获取图片18     for girl in my_girl:#遍历19         link=girl.get('src')#获取src20         print(link)21         global x#全局变量22         # 6.下载 urlretrieve23         urllib.request.urlretrieve(link,'image\%s.jpg'%x)#下载,urlretrieve(需要下载的,路径)24         x+=125         print('正在下载第%s张'%x)26 #7.多页27 for page in range(1,10):#range本身自动生成整数序列,爬取多页图片。28     #page+=129     url='{}'.format(page)#30     #url = 'http://www.dbmeinv.com/?pager_offset=%d' % page31     crawl(url)32 33 print('图片下载完毕')
로그인 후 복사

최종 실행 결과 사진은 이미지 폴더에 저장됩니다.

2. Dianping을 잡고 Excel로 가져옵니다. Zhao Ben의 선언문 교사의 소스 코드입니다.

rreee

위 내용은 Python 크롤러 사진, Excel 작동의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿