爬蟲+視覺化 | Python知乎熱榜/微博熱搜時序圖(上篇)-Python教學-PHP中文網

本期為<#知乎熱榜/微博熱搜時序圖>系列文章上篇內容，跟大家介紹如何使用Python定時爬取知乎熱榜/微博熱搜數據，並儲存至CSV檔案供後續視覺化使用，時序圖部分將在下篇# #內容中介紹，希望對你有幫助。

涉及到的内容：

pandas — 数据处理

schedule — 定时任务

#json — 資料格式

read_html
— 網頁表格處理
###### ###########################
1. 準備工作

1.1 匯入模組
#
import json import time import requests import schedule import pandas as pd from fake_useragent import UserAgent
登入後複製

##
2. 知乎热榜数据

2.1 网页分析
知乎热榜电脑端接口：
https://www.zhihu.com/hot
登入後複製
知乎热榜手机端接口：
https://api.zhihu.com/topstory/hot-list?limit=10&reverse_order=0
登入後複製
注意：电脑端端直接F12调试页即可看到热榜数据，手机端需要借助抓包工具查看，这里我们使用手机端接口(返回json格式数据，解析比较方便)。
2.2 取得資料
############################################################################
def getzhihudata(url, headers): r = requests.get(url, headers=headers) r.raise_for_status() r.encoding = r.apparent_encoding datas = json.loads(r.text)['data'] allinfo = [] time_mow = time.strftime("%Y-%m-%d %H:%M", time.localtime()) print(time_mow) for indx,item in enumerate(datas): title = item['target']['title'] heat = item['detail_text'].split(' ')[0] answer_count = item['target']['answer_count'] follower_count = item['target']['follower_count'] href = item['target']['url'] info = [time_mow, indx+1, title, heat, answer_count, follower_count, href] allinfo.append(info) # 仅首次加表头 global csv_header df = pd.DataFrame(allinfo,columns=['时间','排名','标题','热度(万)','回答数','关注数','链接']) print(df.head())
登入後複製
定时间隔设置1S:
# 每1分钟执行一次爬取任务: schedule.every(1).minutes.do(getzhihudata,zhihu_url,headers) while True: schedule.run_pending() time.sleep(1)
登入後複製
效果：
2.3 保存数据
df.to_csv('zhuhu_hot_datas.csv', mode='a+', index=False, header=csv_header) csv_header = False
登入後複製
注意csv_header的设置，涉及到是否写入表头字段。

3. 微博熱搜資料

3.1 網頁分析
#微博熱搜尋網址：
#https://s.weibo.com/top/summary
F12查看網頁原始碼：
資料在網頁的
標籤裡。
3.2 取得資料
##
代码：
def getweibodata(): url = 'https://s.weibo.com/top/summary' r = requests.get(url, timeout=10) r.encoding = r.apparent_encoding df = pd.read_html(r.text)[0] df = df.loc[1:,['序号', '关键词']] df = df[~df['序号'].isin(['•'])] time_mow = time.strftime("%Y-%m-%d %H:%M", time.localtime()) print(time_mow) df['时间'] = [time_mow] * df.shape[0] df['排名'] = df['序号'].apply(int) df['标题'] = df['关键词'].str.split(' ', expand=True)[0] df['热度'] = df['关键词'].str.split(' ', expand=True)[1] df = df[['时间','排名','标题','热度']] print(df.head())
登入後複製
定时间隔设置1S，效果：
3.3 保存数据
df.to_csv('weibo_hot_datas.csv', mode='a+', index=False, header=csv_header)
登入後複製
结果：

以上是爬蟲+視覺化 | Python知乎熱榜/微博熱搜時序圖(上篇)的詳細內容。更多資訊請關注PHP中文網其他相關文章！

相關標籤：
python

上一篇：爬蟲+視覺化 | Python知乎熱榜/微博熱搜時序圖(下篇) 下一篇：技巧｜Python 批次自動提取、整理 PDF 發票

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

作者最新文章

Python及Pycharm編譯器安裝

2023-08-15 15:07:54

不一樣的Python學習---WWH？

2023-08-15 15:03:09

神奇的「Hello World」－開啟程式設計之旅

2023-08-15 15:01:56

手把教你使用Python輕鬆搞定發郵件

2023-08-15 14:56:46

程式設計師必須掌握的十大排序演算法（上）

2023-08-15 14:55:25

程式設計師必須掌握的十大排序演算法（下）

2023-08-15 14:53:11

爆缸！終於把所有的Python庫，都整理出來囉！

2023-08-15 14:48:06

四種Python爬蟲常用的定位元素方法對比，你偏好哪一款？

2023-08-15 14:42:31

金三銀四，50道必備的Python面試題(建議收藏)

2023-08-15 14:41:13

基礎 | Python流程控制語句

2023-08-15 14:39:02

最新問題

python - ubuntu16.04 lxml的報錯

來自於 1970-01-01 08:00:00

0

0

0

python3.x - java呼叫python，python程式碼自動停止了，找不到原因

來自於 1970-01-01 08:00:00

0

0

0

有辦法在PHP裡寫Python嗎？

來自於 1970-01-01 08:00:00

0

0

0

python scrapy爬蟲錯誤

來自於 1970-01-01 08:00:00

0

0

0

python相關問題求解決，有償

來自於 1970-01-01 08:00:00

0

0

0

相關專題
更多>

python開發工具

 python打包成執行檔

 python能做什麼

 format在python中的用法

 python教程

 python環境變數的配置

 python eval

scratch和python區別

熱門推薦

python中eval是什麼意思？

python如何讀取txt檔案內容

py檔怎麼打開？

python中str是什麼意思

python中format怎麼用

熱門教學
更多>

相關教學

熱門推薦

最新課程

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1437215

php入門教程之一週學會PHP

4297072

JAVA 初級入門影片教學

2665859

小甲魚零基礎入門學習Python影片教學

516638

PHP 零基礎入門教學

877464

最新ThinkPHP 5.1全球首發影片教學(60天成就PHP大牛線上訓練課程)

1437215次學習

JAVA 初級入門影片教學

2665859次學習

小甲魚零基礎入門學習Python影片教學

516638次學習

Web前端開發極速入門

217123次學習

零基礎精通 PS 影片教學

921687次學習

【web前端】Node.js快速入門

9718次學習

國外Web開發全端課程全集

7818次學習

Go語言實戰之 GraphQL

6626次學習

550W粉絲大佬手把手從零學JavaScript

834次學習

python大神Mosh，零基礎小白6小時完全入門

32567次學習

最新下載
更多>

網站特效

網站源碼

網站素材

前端模板

[表單按鈕] jQuery企業留言表單聯絡程式碼

[播放器特效] HTML5 MP3音樂盒播放特效

[選單導航] HTML5酷炫粒子動畫導覽選單特效

[表單按鈕] jQuery可視化表單拖曳編輯程式碼

[播放器特效] VUE.JS仿酷狗音樂播放器代碼

[html5特效] 經典html5推箱子小遊戲

[圖片特效] jQuery滾動添加或減少圖片特效

[相簿特效] CSS3個人相簿封面懸停放大特效

[前端模板] 家居裝潢清潔維修服務公司網站模板

[前端模板] 清新配色個人求職履歷引導頁模板

[前端模板] 設計師創意求職履歷網頁模板

[前端模板] 現代工程建築公司網站模板

[前端模板] 教育服務機構響應式HTML5模板

[前端模板] 網上電子書店商城網站模板

[前端模板] IT技術解決互聯網公司網站模板

[前端模板] 紫色風格外匯交易服務網站模板

[PNG素材] 可愛的夏天元素向量素材(EPS+PNG)

[PNG素材] 四個紅色的 2023 畢業徽章的向量素材(AI+EPS+PNG)

[banner圖] 唱歌的小鳥和裝滿花朵的推車設計春天banner向量素材(AI+EPS)

[PNG素材] 金色的畢業帽向量素材(EPS+PNG)

[PNG素材] 黑白風格的山脈圖示向量素材(EPS+PNG)

[PNG素材] 不同顏色披風和不同姿勢的超級英雄剪影向量素材(EPS+PNG)

[banner圖] 扁平風格的植樹節banner向量素材(AI+EPS)

[PNG素材] 九種漫畫風格的爆炸聊天氣泡向量素材(EPS+PNG)

[前端模板] 家居裝潢清潔維修服務公司網站模板

[前端模板] 清新配色個人求職履歷引導頁模板

[前端模板] 設計師創意求職履歷網頁模板

[前端模板] 現代工程建築公司網站模板

[前端模板] 教育服務機構響應式HTML5模板

[前端模板] 網上電子書店商城網站模板

[前端模板] IT技術解決互聯網公司網站模板

[前端模板] 紫色風格外匯交易服務網站模板

公益線上PHP培訓，幫助PHP學習者快速成長！

關於我們免責聲明 Sitemap

© php.cn All rights reserved