爬虫+可视化 | Python知乎热榜/微博热搜时序图(上篇)-Python教程-PHP中文网

本期为<知乎热榜/微博热搜时序图>系列文章上篇内容，给大家介绍如何使用Python定时爬取知乎热榜/微博热搜数据，并保存至CSV文件供后续可视化使用，时序图部分将在下篇内容中介绍，希望对你有所帮助。

涉及到的内容：
pandas — 数据处理
schedule — 定时任务
json — 数据格式
read_html — 网页表格处理

1. 准备工作

1.1 导入模块
import json import time import requests import schedule import pandas as pd from fake_useragent import UserAgent
登录后复制

2. 知乎热榜数据

2.1 网页分析
知乎热榜电脑端接口：
https://www.zhihu.com/hot
登录后复制
知乎热榜手机端接口：
https://api.zhihu.com/topstory/hot-list?limit=10&reverse_order=0
登录后复制
注意：电脑端端直接F12调试页即可看到热榜数据，手机端需要借助抓包工具查看，这里我们使用手机端接口(返回json格式数据，解析比较方便)。
2.2 获取数据
代码：
def getzhihudata(url, headers): r = requests.get(url, headers=headers) r.raise_for_status() r.encoding = r.apparent_encoding datas = json.loads(r.text)['data'] allinfo = [] time_mow = time.strftime("%Y-%m-%d %H:%M", time.localtime()) print(time_mow) for indx,item in enumerate(datas): title = item['target']['title'] heat = item['detail_text'].split(' ')[0] answer_count = item['target']['answer_count'] follower_count = item['target']['follower_count'] href = item['target']['url'] info = [time_mow, indx+1, title, heat, answer_count, follower_count, href] allinfo.append(info) # 仅首次加表头 global csv_header df = pd.DataFrame(allinfo,columns=['时间','排名','标题','热度(万)','回答数','关注数','链接']) print(df.head())
登录后复制
定时间隔设置1S:
# 每1分钟执行一次爬取任务: schedule.every(1).minutes.do(getzhihudata,zhihu_url,headers) while True: schedule.run_pending() time.sleep(1)
登录后复制
效果：
2.3 保存数据
df.to_csv('zhuhu_hot_datas.csv', mode='a+', index=False, header=csv_header) csv_header = False
登录后复制
注意csv_header的设置，涉及到是否写入表头字段。

3. 微博热搜数据

3.1 网页分析
微博热搜网址：
https://s.weibo.com/top/summary
F12查看网页源码：
数据在网页的
标签里。
3.2 获取数据
代码：
def getweibodata(): url = 'https://s.weibo.com/top/summary' r = requests.get(url, timeout=10) r.encoding = r.apparent_encoding df = pd.read_html(r.text)[0] df = df.loc[1:,['序号', '关键词']] df = df[~df['序号'].isin(['•'])] time_mow = time.strftime("%Y-%m-%d %H:%M", time.localtime()) print(time_mow) df['时间'] = [time_mow] * df.shape[0] df['排名'] = df['序号'].apply(int) df['标题'] = df['关键词'].str.split(' ', expand=True)[0] df['热度'] = df['关键词'].str.split(' ', expand=True)[1] df = df[['时间','排名','标题','热度']] print(df.head())
登录后复制
定时间隔设置1S，效果：
3.3 保存数据
df.to_csv('weibo_hot_datas.csv', mode='a+', index=False, header=csv_header)
登录后复制
结果：

以上是爬虫+可视化 | Python知乎热榜/微博热搜时序图(上篇)的详细内容。更多信息请关注PHP中文网其他相关文章！

相关标签：
python

上一篇：爬虫+可视化 | Python知乎热榜/微博热搜时序图(下篇) 下一篇：技巧｜Python 批量自动提取、整理 PDF 发票

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

Python及Pycharm编译器安装

2023-08-15 15:07:54

不一样的Python学习---WWH？

2023-08-15 15:03:09

神奇的'Hello World”——开启编程之旅

2023-08-15 15:01:56

手把手教你使用Python轻松搞定发邮件

2023-08-15 14:56:46

程序员必须掌握的十大排序算法（上）

2023-08-15 14:55:25

程序员必须掌握的十大排序算法（下）

2023-08-15 14:53:11

爆缸！终于把所有的Python库，都整理出来啦！

2023-08-15 14:48:06

四种Python爬虫常用的定位元素方法对比，你偏爱哪一款？

2023-08-15 14:42:31

金三银四，50道必备的Python面试题(建议收藏)

2023-08-15 14:41:13

基础 | Python流程控制语句

2023-08-15 14:39:02

最新问题

python - ubuntu16.04 lxml的报错

来自于 1970-01-01 08:00:00

0

0

0

python3.x - java调用python，python代码自动停止了，找不到原因

来自于 1970-01-01 08:00:00

0

0

0

有办法在PHP里写Python吗？

来自于 1970-01-01 08:00:00

0

0

0

python scrapy爬虫错误

来自于 1970-01-01 08:00:00

0

0

0

python相关问题求解决，有偿

来自于 1970-01-01 08:00:00

0

0

0

相关专题
更多>

python开发工具

 python打包成可执行文件

 python能做什么

 format在python中的用法

 python教程

 python环境变量的配置

 蟒蛇评估

 scratch和python区别

热门推荐

python中eval是什么意思？

python如何读取txt文件内容

py文件怎么打开？

python中str是什么意思

python中format怎么用

热门教程
更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1436883

php入门教程之一周学会PHP

4296616

JAVA 初级入门视频教程

2663284

小甲鱼零基础入门学习Python视频教程

516488

PHP 零基础入门教程

877149

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1436883次学习

JAVA 初级入门视频教程

2663284次学习

小甲鱼零基础入门学习Python视频教程

516488次学习

Web前端开发极速入门

217103次学习

零基础精通 PS 视频教程

921106次学习

【web前端】Node.js快速入门

9648次学习

国外Web开发全栈课程全集

7763次学习

Go语言实战之 GraphQL

6588次学习

550W粉丝大佬手把手从零学JavaScript

831次学习

python大神Mosh，零基础小白6小时完全入门

32407次学习

最新下载
更多>

网站特效

网站源码

网站素材

前端模板

[表单按钮] jQuery企业留言表单联系代码

[播放器特效] HTML5 MP3音乐盒播放特效

[菜单导航] HTML5炫酷粒子动画导航菜单特效

[表单按钮] jQuery可视化表单拖拽编辑代码

[播放器特效] VUE.JS仿酷狗音乐播放器代码

[html5特效] 经典html5推箱子小游戏

[图片特效] jQuery滚动添加或减少图片特效

[相册特效] CSS3个人相册封面悬停放大特效

[前端模板] 家居装潢清洁维修服务公司网站模板

[前端模板] 清新配色个人求职简历引导页模板

[前端模板] 设计师创意求职简历网页模板

[前端模板] 现代工程建筑公司网站模板

[前端模板] 教育服务机构响应式HTML5模板

[前端模板] 网上电子书店商城网站模板

[前端模板] IT技术解决互联网公司网站模板

[前端模板] 紫色风格外汇交易服务网站模板

[PNG素材] 可爱的夏天元素矢量素材(EPS+PNG)

[PNG素材] 四个红的的 2023 毕业徽章矢量素材(AI+EPS+PNG)

[banner图] 唱歌的小鸟和装满花朵的推车设计春天banner矢量素材(AI+EPS)

[PNG素材] 金色的毕业帽矢量素材(EPS+PNG)

[PNG素材] 黑白风格的山脉图标矢量素材(EPS+PNG)

[PNG素材] 不同颜色披风和不同姿势的超级英雄剪影矢量素材(EPS+PNG)

[banner图] 扁平风格的植树节banner矢量素材(AI+EPS)

[PNG素材] 九个漫画风格的爆炸聊天气泡矢量素材(EPS+PNG)

[前端模板] 家居装潢清洁维修服务公司网站模板

[前端模板] 清新配色个人求职简历引导页模板

[前端模板] 设计师创意求职简历网页模板

[前端模板] 现代工程建筑公司网站模板

[前端模板] 教育服务机构响应式HTML5模板

[前端模板] 网上电子书店商城网站模板

[前端模板] IT技术解决互联网公司网站模板

[前端模板] 紫色风格外汇交易服务网站模板

公益在线PHP培训，帮助PHP学习者快速成长！

关于我们免责声明 Sitemap

© php.cn All rights reserved