python爬虫入门实战之爬取网页图片-Python教程-PHP中文网

准备工作

编写爬虫程序

程序代码

首页

后端开发

Python教程

python爬虫入门实战之爬取网页图片

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 11, 2022 pm 12:06 PM

python

本篇文章给大家带来了关于Python的相关知识，其中主要整理了爬取网页图片的相关问题，要想高效的获取数据，爬虫是非常好用的，而用python做爬虫也十分简单方便，下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程，下面一起来看一下，希望对大家有帮助。

python爬虫入门实战之爬取网页图片

【相关推荐：Python3视频教程】

在现在这个信息爆炸的时代，要想高效的获取数据，爬虫是非常好用的。而用python做爬虫也十分简单方便，下面通过一个简单的小爬虫程序来看一看写爬虫的基本过程：

准备工作

语言：python

IDE：pycharm

首先是要用到的库，因为是刚入门最简单的程序，我们主要就用到下面这两：

import requests //用于请求网页
import re  //正则表达式，用于解析筛选网页中的信息

登录后复制

其中re是python自带的，requests库需要我们自己安装，在命令行中输入pip install requests即可。

然后随便找一个网站，注意不要尝试爬取隐私敏感信息，这里找了个表情包网站：

注：此处表情包网站中的内容本来就可以免费下载，所以爬虫只是简化了我们一个个点的流程，注意不能去爬取付费资源。

我们要做的就是通过爬虫把这些表情包下载到我们电脑里。

编写爬虫程序

首先肯定要通过python访问这个网站，代码如下：

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
    }
response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)  //请求网页

登录后复制

其中之所以要加headers这一段是因为有些网页会识别到你是通过python请求的然后把你拒绝，所以我们要换个正常的请求头。可以随便找一个或者f12从网络信息里复制一个。

然后我们要找到我们要爬取的图片在网页代码里的位置，f12查看源代码，找到表情包如下：

然后建立匹配规则，用正则表达式把中间那串替换掉，最简单的就是.*?

t = '<img src="(.*?)" alt="(.*?)" width="160" height="120">'

登录后复制

像这样。

然后就可以调用re库里的findall方法把相关内容爬下来了：

result = re.findall(t, response.text)

登录后复制

返回的内容是由字符串组成的列表，最后我们经由爬到的地址通过python语句把图片下下来保存到文件夹里就行了。

程序代码

import requests
import re
import os

image = '表情包'
if not os.path.exists(image):
    os.mkdir(image)
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:98.0) Gecko/20100101 Firefox/98.0'
    }
response = requests.get('https://qq.yh31.com/zjbq/',headers=headers)
response.encoding = 'GBK'
response.encoding = 'utf-8'
print(response.request.headers)
print(response.status_code)
t = '<img src="(.*?)" alt="(.*?)" width="160" height="120">'
result = re.findall(t, response.text)
for img in result:
    print(img)
    res = requests.get(img[0])
    print(res.status_code)
    s = img[0].split('.')[-1]  #截取图片后缀，得到表情包格式，如jpg ，gif
    with open(image + '/' + img[1] + '.' + s, mode='wb') as file:
        file.write(res.content)

登录后复制

最后结果就是这个样子：

【相关推荐：Python3视频教程】

以上是python爬虫入门实战之爬取网页图片的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7671

CakePHP 教程

1393

C# 教程

1206

steam的账户名称是什么格式

win11激活密钥永久

显示更多

Related knowledge

PHP和Python：解释了不同的范例 Apr 18, 2025 am 12:26 AM

PHP主要是过程式编程，但也支持面向对象编程（OOP）；Python支持多种范式，包括OOP、函数式和过程式编程。PHP适合web开发，Python适用于多种应用，如数据分析和机器学习。

在PHP和Python之间进行选择：指南 Apr 18, 2025 am 12:24 AM

PHP适合网页开发和快速原型开发，Python适用于数据科学和机器学习。1.PHP用于动态网页开发，语法简单，适合快速开发。2.Python语法简洁，适用于多领域，库生态系统强大。

visual studio code 可以用于 python 吗 Apr 15, 2025 pm 08:18 PM

VS Code 可用于编写 Python，并提供许多功能，使其成为开发 Python 应用程序的理想工具。它允许用户：安装 Python 扩展，以获得代码补全、语法高亮和调试等功能。使用调试器逐步跟踪代码，查找和修复错误。集成 Git，进行版本控制。使用代码格式化工具，保持代码一致性。使用 Linting 工具，提前发现潜在问题。

vs code 可以在 Windows 8 中运行吗 Apr 15, 2025 pm 07:24 PM

VS Code可以在Windows 8上运行，但体验可能不佳。首先确保系统已更新到最新补丁，然后下载与系统架构匹配的VS Code安装包，按照提示安装。安装后，注意某些扩展程序可能与Windows 8不兼容，需要寻找替代扩展或在虚拟机中使用更新的Windows系统。安装必要的扩展，检查是否正常工作。尽管VS Code在Windows 8上可行，但建议升级到更新的Windows系统以获得更好的开发体验和安全保障。