python爬虫入门教程之糗百图片爬虫代码分享
学习python少不了写爬虫,不仅能以点带面地学习、练习使用python,爬虫本身也是有用且有趣的,大量重复性的下载、统计工作完全可以写一个爬虫程序完成。
用python写爬虫需要python的基础知识、涉及网络的几个模块、正则表达式、文件操作等知识。昨天在网上学习了一下,写了一个爬虫自动下载「糗事百科」里面的图片。源代码如下:
代码如下:
# -*- coding: utf-8 -*-
# 上面那句让代码里支持中文
#---------------------------------------
# 程序:糗百图片爬虫
# 版本:0.1
# 作者:赵伟
# 日期:2013-07-25
# 语言:Python 2.7
# 说明:能设置下载的页数。没有做更多抽象和交互方面的优化。
#---------------------------------------
import urllib2
import urllib
import re
#正则表达式,用来抓取图片的地址
pat = re.compile('
#用来合成网页的URL
nexturl1 = "http://m.qiushibaike.com/imgrank/page/"
nexturl2 = "?s=4582487&slow"
#页数计数
count = 1
#设置抓取的页数
while count
print "Page " + str(count) + "\n"
myurl = nexturl1 + str(count) + nexturl2
myres = urllib2.urlopen(myurl)#抓取网页
mypage = myres.read()#读取网页内容
ucpage = mypage.decode("utf-8") #转码
mat = pat.findall(ucpage)#用正则表达式抓取图片地址
count += 1;
if len(mat):
for item in mat:
print "url: " + item + "\n"
fnp = re.compile('/(\w+\.\w+)$')#下面三行分离出图片文件的名称
fnr = fnp.findall(item)
fname = fnr[0]
urllib.urlretrieve(item, fname)#下载图片
else:
print "no data"
使用方法:新建一个practice文件夹,将源代码保存为qb.py文件,并放在practice文件夹中,在命令行里执行python qb.py,即开始下载图片。可以修改源代码里面的while语句设置下载的页数。

热AI工具

Undresser.AI Undress
人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover
用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool
免费脱衣服图片

Clothoff.io
AI脱衣机

AI Hentai Generator
免费生成ai无尽的。

热门文章

热工具

记事本++7.3.1
好用且免费的代码编辑器

SublimeText3汉化版
中文版,非常好用

禅工作室 13.0.1
功能强大的PHP集成开发环境

Dreamweaver CS6
视觉化网页开发工具

SublimeText3 Mac版
神级代码编辑软件(SublimeText3)

关于Linux系统自带Python解释器的删除问题许多Linux发行版在安装时会预装Python解释器,它并非通过软件包管理器�...

使用自定义装饰器时的Pylance类型检测问题解决方法在Python编程中,装饰器是一种强大的工具,可以用于添加行�...

Python3.6环境下加载pickle文件报错:ModuleNotFoundError:Nomodulenamed...

Python异步库之间的兼容性问题在Python中,异步编程已经成为处理高并发和I/O...

Python3.6环境下加载Pickle文件报错:ModuleNotFoundError:Nomodulenamed...

使用信号杀死父进程时,子进程继续运行的问题及解决方案在Python编程中,通过信号杀死父进程后,子进程仍然...
