目录
多线程下载图片" >多线程下载图片
生成Markdown文档" >生成Markdown文档
生成Excel表格" >生成Excel表格
首页 后端开发 Python教程 手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

Jul 24, 2023 pm 02:55 PM
python 蟒蛇爬行动物


一、前言

玩过王者荣耀游戏的小伙伴们都知道英雄出装是十分重要的事情,一个合理的出装,再加上铭文,可以让你在王者战场上势如破竹,unstoppable!

前几天在【明佬】群里看到他分享了一个使用Python网络爬虫获取王者荣耀英雄出装说明,并使用线程池的方式下载了出装图片,之后还自动化生成了markdown文件,干货内容很多,这里拿出来分享给大家,欢迎大家积极尝试。

二、数据获取

这里我们的目标网站是王者荣耀官网,如下图所示。手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

之后依次点击首页右侧中的【英雄/皮肤】的【更多】按钮,可以进入到详情页,如下图所示,点击【局内道具】就可以看到出装信息了,里边包含了我们想要的目标信息。手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

通过浏览器抓包,可以获取到具体的信息,可以看到存放在json格式中。

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件下图是数据详情截图,可以看到有中文乱码,这个不影响,起码数据是可以拿到的。

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

代码实现过程

找到数据源之后,接下来就是代码实现了,一起来看看吧,这里直接套用【明佬】代码,在jupyter notebook中跑的。

获取装备数据

import requests
import pandas as pd

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                  'Chrome/88.0.4324.104 Safari/537.36 '
}
target = 'https://pvp.qq.com/web201605/js/item.json'
item_list = requests.get(target, headers=headers).json()
item_df = pd.DataFrame(item_list)
item_df.sort_values(["item_type", "price", "item_id"], inplace=True)
item_df.fillna("", inplace=True)
item_df.des1 = item_df.des1.str.replace("</?p>", "", regex=True)
item_df.des2 = item_df.des2.str.replace("</?p>", "", regex=True)
item_df
登录后复制

结果如下图所示:

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

多线程下载图片

接下来使用线程池的方法下载图片,图片的拼接方法也很简单,看下图就一目了然了。

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件下面是代码实现:

import os
from concurrent.futures import ThreadPoolExecutor


def download_img(item_id):
    if os.path.exists(f"imgs/{item_id}.jpg"):
        return
    imgurl = f"http://game.gtimg.cn/images/yxzj/img201606/itemimg/{item_id}.jpg"
    res = requests.get(imgurl)
    with open(f"imgs/{item_id}.jpg", "wb") as f:
        f.write(res.content)


os.makedirs("imgs", exist_ok=True)
with ThreadPoolExecutor(max_workers=8) as executor:
    nums = executor.map(download_img, item_df.item_id)
登录后复制

下载速度很快,几秒钟的事情,结果如下图所示:

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

接下来,我们将数据自动化生成Markdown文档,一起来看看吧。

生成Markdown文档

代码如下,前面部分是数据的预处理,后面是写入文件:

item_type_dict = {1: &#39;攻击&#39;, 2: &#39;法术&#39;, 3: &#39;防御&#39;, 4: &#39;移动&#39;, 5: &#39;打野&#39;, 7: &#39;游走&#39;}
item_ids = item_df.item_id.values
item_df.item_id = item_df.item_id.apply(
    lambda item_id: f"![{item_id}](imgs/{item_id}.jpg)")
item_df.item_type = item_df.item_type.map(item_type_dict)
item_df.columns = ["图片", "装备名称", "类型", "售价", "总价", "基础描述", "扩展描述"]
item_df
登录后复制

写入文件的代码,生成Markdown文档:

with open("王者装备说明.md", "w") as f:
    for item_type, item_split in item_df.groupby("类型", sort=False):
        f.write(f"# {item_type}\n")
        item_split.drop(columns="类型", inplace=True)
        f.write(item_split.to_markdown(index=False))
        f.write("\n\n")
登录后复制

结果如下图所示:

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

之后在本地还会生成一个名为【王者装备说明.md】的Markdown文档,双击文件打开,内容如下图所示:

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件真是直呼好家伙!我在这一步实现的时候,遇到了一个报错,如下所示:

Missing optional dependency &#39;tabulate&#39;.  Use pip or conda to install tabulate.
登录后复制

提示却少依赖库,只需要在cmd下进行安装即可pip install tabulate,之后就可以正常运行了。

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

生成Excel表格

不过Markdown的表格无法任意调整,图片需要点击后才会放大,下面我们考虑生成Excel表格:首先需要整理数据,代码如下:

item_df.图片 = ""
item_df.基础描述 = item_df.基础描述.str.replace("<br>", "\n")
item_df.扩展描述 = item_df.扩展描述.str.replace("<br>", "\n")
item_df
登录后复制

生成结果如下图所示:

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件之后将结果写入到Excel中去,代码如下所示:

# 写入Excel表格
from openpyxl.drawing.image import Image
from openpyxl.styles import Alignment

with pd.ExcelWriter("王者装备说明.xlsx", engine=&#39;openpyxl&#39;) as writer:
    item_df.to_excel(writer, sheet_name=&#39;装备说明&#39;, index=False)
    worksheet = writer.sheets[&#39;装备说明&#39;]
    worksheet.column_dimensions["A"].width = 11
    for item_id, (cell,) in zip(item_ids, worksheet.iter_rows(2, None, 1, 1)):
        worksheet.row_dimensions[cell.row].height = 67
        worksheet.add_image(Image(f"imgs/{item_id}.jpg"), f&#39;A{cell.row}&#39;)
    worksheet.column_dimensions["F"].width = 15
    worksheet.column_dimensions["G"].width = 35
    writer.save()
登录后复制

打开文件,效果图如下图所示:

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

当然了,大家也可以根据自己想要的效果生成HTML和Word等等。

三、总结

大家好,我是Python进阶者。这篇文章主要分享了一个使用Python网络爬虫获取王者荣耀英雄出装说明,并使用线程池的方式下载了出装图片,之后还自动化生成了markdown文件,干货内容很多,欢迎大家积极尝试,如果有遇到问题,请添加我好友,我帮助解决。

最后感谢粉丝【明佬】分享的代码喝王者荣耀出装攻略,真是太强了,上王者指日可待!

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件

最后放上【明佬】的csdn链接:https://xxmdmst.blog.csdn.net/article/details/124035041,点击阅读原文可以直达噢!

以上是手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

PHP和Python:比较两种流行的编程语言 PHP和Python:比较两种流行的编程语言 Apr 14, 2025 am 12:13 AM

PHP和Python各有优势,选择依据项目需求。1.PHP适合web开发,尤其快速开发和维护网站。2.Python适用于数据科学、机器学习和人工智能,语法简洁,适合初学者。

Python:游戏,Guis等 Python:游戏,Guis等 Apr 13, 2025 am 12:14 AM

Python在游戏和GUI开发中表现出色。1)游戏开发使用Pygame,提供绘图、音频等功能,适合创建2D游戏。2)GUI开发可选择Tkinter或PyQt,Tkinter简单易用,PyQt功能丰富,适合专业开发。

debian readdir如何与其他工具集成 debian readdir如何与其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系统中的readdir函数是用于读取目录内容的系统调用,常用于C语言编程。本文将介绍如何将readdir与其他工具集成,以增强其功能。方法一:C语言程序与管道结合首先,编写一个C程序调用readdir函数并输出结果:#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

Python和时间:充分利用您的学习时间 Python和时间:充分利用您的学习时间 Apr 14, 2025 am 12:02 AM

要在有限的时间内最大化学习Python的效率,可以使用Python的datetime、time和schedule模块。1.datetime模块用于记录和规划学习时间。2.time模块帮助设置学习和休息时间。3.schedule模块自动化安排每周学习任务。

Nginx SSL证书更新Debian教程 Nginx SSL证书更新Debian教程 Apr 13, 2025 am 07:21 AM

本文将指导您如何在Debian系统上更新NginxSSL证书。第一步:安装Certbot首先,请确保您的系统已安装certbot和python3-certbot-nginx包。若未安装,请执行以下命令:sudoapt-getupdatesudoapt-getinstallcertbotpython3-certbot-nginx第二步:获取并配置证书使用certbot命令获取Let'sEncrypt证书并配置Nginx:sudocertbot--nginx按照提示选

Debian OpenSSL如何配置HTTPS服务器 Debian OpenSSL如何配置HTTPS服务器 Apr 13, 2025 am 11:03 AM

在Debian系统上配置HTTPS服务器涉及几个步骤,包括安装必要的软件、生成SSL证书、配置Web服务器(如Apache或Nginx)以使用SSL证书。以下是一个基本的指南,假设你使用的是ApacheWeb服务器。1.安装必要的软件首先,确保你的系统是最新的,并安装Apache和OpenSSL:sudoaptupdatesudoaptupgradesudoaptinsta

Debian上GitLab的插件开发指南 Debian上GitLab的插件开发指南 Apr 13, 2025 am 08:24 AM

在Debian上开发GitLab插件需要一些特定的步骤和知识。以下是一个基本的指南,帮助你开始这个过程。安装GitLab首先,你需要在Debian系统上安装GitLab。可以参考GitLab的官方安装手册。获取API访问令牌在进行API集成之前,首先需要获取GitLab的API访问令牌。打开GitLab仪表盘,在用户设置中找到“AccessTokens”选项,生成一个新的访问令牌。将生成的

apache属于什么服务 apache属于什么服务 Apr 13, 2025 pm 12:06 PM

Apache是互联网幕后的英雄,不仅是Web服务器,更是一个支持巨大流量、提供动态内容的强大平台。它通过模块化设计提供极高的灵活性,可根据需要扩展各种功能。然而,模块化也带来配置和性能方面的挑战,需要谨慎管理。Apache适合需要高度可定制、满足复杂需求的服务器场景。

See all articles