Python 크롤러 사진, Excel 작동-파이썬 튜토리얼-php.cn

Python 크롤러 사진, Excel 작동

PHP中文网

풀어 주다： 2017-06-20 14:01:29

원래의

2088명이 탐색했습니다.

　최근 Tanzhou Education의 온라인 라이브 강좌를 시청했는데 선생님 강의의 실용성에 깊은 인상을 받았습니다. 그냥 자신만의 노트로 공부하세요. 프로그램을 배울 때 먼저 복사한 다음 작성한다는 것을 우리 모두 알고 있습니다. 여기에서는 선생님의 설명을 완전히 따르고 학습을 위해 복사합니다.

1. Python은 Douban 소녀의 사진을 캡처합니다.

　 도구: python3.6.0 bs4.6.0; 온라인으로 업그레이드할 수 있습니다: pip install update buautifulsoup4

　1.pip 목록, 로컬 설치를 볼 수 있습니다.

　　1. Douban 소녀 사진을 크롤링하여 주소를 알아보세요. url = ''.

　　2. 웹페이지의 소스코드인 F12, 네트워크를 확인하고, 좌측에 캡쳐된 웹페이지 정보를 찾아 User-agent를 찾는다. 주된 목적은 브라우저 로그인 모방과 안티 크롤러 차단이다.

요소 요소를 찾아보세요. 우리가 원하는 것은 img 태그와 그 안에 포함된 이미지 정보, src 링크 다운로드 주소입니다.

선생님의 지시에 따라 모든 코드를 작성하세요

 1 import urllib 2 import urllib.request 3 from bs4 import BeautifulSoup 4 url = '' 5 x=0 6 #获取源码 7 #自定义函数 8 #User-Agent模拟浏览器进行访问，反爬虫 9 def crawl(url):10     headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3088.3 Safari/537.36'}11     req=urllib.request.Request(url,headers=headers)#创建对象12     page=urllib.request.urlopen(req,timeout=20)#设置超时13     contents=page.read()#获取源码14     #print (contents.decode())15     soup = BeautifulSoup(contents,'html.parser')#html.parser主要是解析网页的一种形式。16     my_girl=soup.find_all('img')#找到所有img标签17     # 5.获取图片18     for girl in my_girl:#遍历19         link=girl.get('src')#获取src20         print(link)21         global x#全局变量22         # 6.下载 urlretrieve23         urllib.request.urlretrieve(link,'image\%s.jpg'%x)#下载,urlretrieve(需要下载的，路径)24         x+=125         print('正在下载第%s张'%x)26 #7.多页27 for page in range(1,10):#range本身自动生成整数序列，爬取多页图片。28     #page+=129     url='{}'.format(page)#30     #url = 'http://www.dbmeinv.com/?pager_offset=%d' % page31     crawl(url)32 33 print('图片下载完毕')

로그인 후 복사

최종 실행 결과 사진은 이미지 폴더에 저장됩니다.