최근 Tanzhou Education의 온라인 라이브 강좌를 시청했는데 선생님 강의의 실용성에 깊은 인상을 받았습니다. 그냥 자신만의 노트로 공부하세요. 프로그램을 배울 때 먼저 복사한 다음 작성한다는 것을 우리 모두 알고 있습니다. 여기에서는 선생님의 설명을 완전히 따르고 학습을 위해 복사합니다.
1. Python은 Douban 소녀의 사진을 캡처합니다.
도구: python3.6.0 bs4.6.0; 온라인으로 업그레이드할 수 있습니다: pip install update buautifulsoup4
1.pip 목록, 로컬 설치를 볼 수 있습니다.
1. Douban 소녀 사진을 크롤링하여 주소를 알아보세요. url = ''.
2. 웹페이지의 소스코드인 F12, 네트워크를 확인하고, 좌측에 캡쳐된 웹페이지 정보를 찾아 User-agent를 찾는다. 주된 목적은 브라우저 로그인 모방과 안티 크롤러 차단이다.
요소 요소를 찾아보세요. 우리가 원하는 것은 img 태그와 그 안에 포함된 이미지 정보, src 링크 다운로드 주소입니다.
선생님의 지시에 따라 모든 코드를 작성하세요
1 import urllib 2 import urllib.request 3 from bs4 import BeautifulSoup 4 url = '' 5 x=0 6 #获取源码 7 #自定义函数 8 #User-Agent模拟浏览器进行访问,反爬虫 9 def crawl(url):10 headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3088.3 Safari/537.36'}11 req=urllib.request.Request(url,headers=headers)#创建对象12 page=urllib.request.urlopen(req,timeout=20)#设置超时13 contents=page.read()#获取源码14 #print (contents.decode())15 soup = BeautifulSoup(contents,'html.parser')#html.parser主要是解析网页的一种形式。16 my_girl=soup.find_all('img')#找到所有img标签17 # 5.获取图片18 for girl in my_girl:#遍历19 link=girl.get('src')#获取src20 print(link)21 global x#全局变量22 # 6.下载 urlretrieve23 urllib.request.urlretrieve(link,'image\%s.jpg'%x)#下载,urlretrieve(需要下载的,路径)24 x+=125 print('正在下载第%s张'%x)26 #7.多页27 for page in range(1,10):#range本身自动生成整数序列,爬取多页图片。28 #page+=129 url='{}'.format(page)#30 #url = 'http://www.dbmeinv.com/?pager_offset=%d' % page31 crawl(url)32 33 print('图片下载完毕')
최종 실행 결과 사진은 이미지 폴더에 저장됩니다.
2. Dianping을 잡고 Excel로 가져옵니다. Zhao Ben의 선언문 교사의 소스 코드입니다.
위 내용은 Python 크롤러 사진, Excel 작동의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!