目錄
一、建置測試用網站資料
1.建立Web網站
HTML表格实例,用于提供给Excel和Python读取
#2.建構Web API服務
#2、抓取用網頁資料
1.透過Excel抓取
2.使用Python抓取
3、呼叫Web API服務
1.使用Excel呼叫
2.使用Python呼叫
4、两种方法对比
首頁 後端開發 Python教學 使用 Excel 和 Python 從互聯網獲取數據

使用 Excel 和 Python 從互聯網獲取數據

Apr 11, 2023 pm 06:28 PM
excel python 數據資源

今天的文章主要分為兩個部分,一是用透過Python建立一個資料網站,二是分別使用Excel和Python從編寫的Web網站上取得資料。

一、建置測試用網站資料

透過Python Flask Web框架分別建構一個Web網站和一個Web API服務。

1.建立Web網站

新建一個名為「5-5-WebTable.py」的Python腳本,建立一個包含表格的簡單網頁。如果讀者對建置方法不感興趣,可跳過以下程式碼,直接執行腳本「5-5-WebTable.py」開啟網站。

(1)安裝flask套件。

pip install flask
登入後複製

(2)建立包含表格的網頁。

from flask import Flask

app = Flask(__name__)# 创建Falsk Web应用实例

# 将路由“/”映射到table_info函数,函数返回HTML代码
@app.route('/')
def table_info():

return """<h2 id="HTML表格实例-用于提供给Excel和Python读取">HTML表格实例,用于提供给Excel和Python读取</h2>
<table border="1">
<caption>用户信息表</caption>
<tbody><tr>
<th>姓名</th>
<th>性别</th>
<th>年龄</th>
</tr>
<tr>
<td>小米</td>
<td>女</td>
<td>22</td>
</tr>
……….
</tbody></table>"""

if __name__ == '__main__':
app.debug = True# 启用调试模式
app.run()# 运行,网站端口默认为5000
登入後複製

透過指令「python ./5-5-WebTable.py」啟動網站,然後在瀏覽器中輸入http://127.0.0.1:5000/,出現如圖1所示的網頁內容。

使用 Excel 和 Python 從互聯網獲取數據

圖1  使用Flask建置的測試網站

#2.建構Web API服務

新建一個名為「5-5- WebAPI.py」的Python腳本,使用flask_restplus套件建構Web API服務。如果讀者對建置方法不感興趣,可跳過以下程式碼,直接執行腳本「5-5-WebAPI.py」開啟Web API服務。

(1)安裝flask_restplus套件。

pip install flask-restplus
登入後複製

(2)導入必要的函式庫與初始化應用程式物件。

from flask import Flask
# Api类是Web API应用的入口,需要用Flask应用程序初始化
from flask_restplus import Api

# Resource类是HTTP请求的资源的基类
from flask_restplus import Resource

# fields类用于定义数据的类型和格式
from flask_restplus import fields

app = Flask(__name__)# 创建Falsk Web应用实例

# 在flask应用的基础上构建flask_restplusApi对象
api = Api(app, version='1.0',
title='Excel集成Python数据分析-测试用WebAPI',
description='测试用WebAPI', )

# 使用namespace函数生成命名空间,用于为资源分组
ns = api.namespace('ExcelPythonTest', description='Excel与Python Web API测试')
# 使用api.model函数生成模型对象
todo = api.model('task_model', {
'id': fields.Integer(readonly=True,
 description='ETL任务唯一标识'),
'task': fields.String(required=True,
description='ETL任务详情')
})
登入後複製

(3)Web API資料操作類,包含增、刪、改、查等方法。

class TodoDAO(object):

def __init__(self):
self.counter = 0
self.todos = []

def get(self, id):
for todo in self.todos:
if todo['id'] == id:
return todo
api.abort(404, "ETL任务 {} 不存在".format(id))

def create(self, data):
todo = data
todo['id'] = self.counter = self.counter + 1
self.todos.append(todo)
return todo

# 实例化数据操作,创建3条测试数据
DAO = TodoDAO()
DAO.create({'task': 'ETL-抽取数据操作'})
DAO.create({'task': 'ETL-数据清洗转换'})
DAO.create({'task': 'ETL-数据加载操作'})
登入後複製

(4)建構Web API的路由對映。

HTTP資源請求類別從Resource類別繼承,然後對應到不同的路由,同時指定可使用HTTP方法。

@ns.route('/')# 路由“/”对应的资源类为TodoList,可使用get方法和post方法进行请求
class TodoList(Resource):
@ns.doc('list_todos')# @doc装饰器对应API文档的信息
@ns.marshal_list_with(todo)# @marshal_xxx装饰器对模型数据进行格式转换与输出
def get(self):# 定义get方法获取所有的任务信息
return DAO.todos

@ns.doc('create_todo')
@ns.expect(todo)
@ns.marshal_with(todo, code=201)
def post(self):# 定义post方法获取所有的任务信息
return DAO.create(api.payload), 201

# 路由/<int:id>对应的资源类为Todo,可使用get、delete、put方法进行请求
@ns.route('/<int:id>')
@ns.response(404, '未发现相关ETL任务')
@ns.param('id', 'ETL任务ID号')
class Todo(Resource):
@ns.doc('get_todo')
@ns.marshal_with(todo)
def get(self, id):
return DAO.get(id)

@ns.doc('delete_todo')
@ns.response(204, 'ETL任务已经删除')
def delete(self, id):
DAO.delete(id)
return '', 204

@ns.expect(todo)
@ns.marshal_with(todo)
def put(self, id):
return DAO.update(id, api.payload)

if __name__ == '__main__':
app.run(debug=True, port=8000)# 启动Web API服务,端口为8000
登入後複製

(4)開啟Web API服務。

透過指令「python ./5-5-WebAPI.py」啟動Web API服務,在瀏覽器中輸入「http://127.0.0.1:8000/」將出現如圖5-23所示的Web API服務請求方法清單。

使用 Excel 和 Python 從互聯網獲取數據

圖2  WebAPI服務要求方法清單

#2、抓取用網頁資料

Excel可以透過「資料」標籤下的「自網站」功能抓取網頁資料。 Python可以使用 requests 函式庫、Beautiful Soup套件、Scrapy框架抓取網頁資料。

1.透過Excel抓取

點選「資料」→「自其他來源」→「自網站」功能。 Excel可讀取的網頁資料有限制:動態網頁資料無法自動識別,非表格資料無法自動辨識。

(1)點選「資料」→「自其他來源」→「自網站」功能。

(2)確保在5.5.1節中編寫的Web網站已經開啟。

(3)輸入網站URL位址「http://127.0.0.1:5000/」

按一下「進階」按鈕可設定更詳細的HTTP請求訊息,然後按一下「確定”按鈕,如圖3所示。

使用 Excel 和 Python 從互聯網獲取數據

圖3  設定要讀取網站的URL

(4)在「導航器」視窗中選擇匯入資料。

如圖4所示,Excel自動辨識網頁中的表格數據,選擇表名後點選「載入」按鈕即可。

使用 Excel 和 Python 從互聯網獲取數據

圖4  Excel自動辨識網頁中的表格資料

2.使用Python抓取

下列示範使用requests庫抓取整個網頁中的數據,然後使用Beautiful Soup解析網頁。讀者可參考本書程式碼素材檔案「5-5-web.ipynb」進行學習。

(1)透過requests讀取網頁資料。

import requests #导入requests包
url ='http://127.0.0.1:5000/'

strhtml= requests.get(url) #使用get方法请求网页数据
登入後複製

(2)透過Beautiful Soup解析網頁。

from bs4 import BeautifulSoup

soup = BeautifulSoup(strhtml.text)# 将网页内容作为参数,创建soup对象
table = soup.find('table')# 查找网页中的table元素
table_body = table.find('tbody')# 查找table元素中的tbody元素
data = []
rows = table_body.find_all('tr')# 查找表中的所有tr元素

for row in rows:# 遍历数据
cols = row.find_all('td')
cols = [ele.text.strip() for ele in cols]
data.append([ele for ele in cols if ele])
# 结果输出:[[],
['小米', '女', '22'],['小明','男','23'],……
登入後複製

3、呼叫Web API服務

Excel可以透過「資料」標籤下的「自網站」功能呼叫Web API服務。 Python可以使用 requests 函式庫、Beautiful Soup套件、Scrapy框架呼叫Web API來取得資料。

1.使用Excel呼叫

(1)確保5.5.1節中所寫的Web API服務已經開啟。

(2)輸入Web API方法對應的URL:http://127.0.0.1:8000/ExcelPythonTest/。

(3)處理傳回的資料。

呼叫Web API服務後資料以JSON格式傳回,依照5.4.3小節介紹的方法處理JSON資料。

2.使用Python呼叫

使用requests函式庫呼叫Web API方法,然後對傳回的JSON資料進行處理,讀者可參考本書程式碼素材檔「5-5-api.ipynb ”進行學習。

import requests#导入requests包
url ='http://127.0.0.1:8000/ExcelPythonTest/'

strhtml= requests.get(url)#使用get方法获取网页数据

import pandas as pd

frame= pd.read_json(strhtml.text)#使用Pandas包中的read_json函数
print(frame)
#结果输出:
id task
0 1 ETL-抽取数据操作
1 2 ETL-数据清洗转换
2 3 ETL-数据加载操作
登入後複製

4、两种方法对比

表1所示为Excel和Python抓取互联网数据方法的对比。需要注意Excel从互联网抓取数据的功能并不完善。

表1   Excel和Python抓取互联网数据方法对比

使用 Excel 和 Python 從互聯網獲取數據

以上是使用 Excel 和 Python 從互聯網獲取數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

PHP和Python:解釋了不同的範例 PHP和Python:解釋了不同的範例 Apr 18, 2025 am 12:26 AM

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

在PHP和Python之間進行選擇:指南 在PHP和Python之間進行選擇:指南 Apr 18, 2025 am 12:24 AM

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

Python vs. JavaScript:學習曲線和易用性 Python vs. JavaScript:學習曲線和易用性 Apr 16, 2025 am 12:12 AM

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

PHP和Python:深入了解他們的歷史 PHP和Python:深入了解他們的歷史 Apr 18, 2025 am 12:25 AM

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

vs code 可以在 Windows 8 中運行嗎 vs code 可以在 Windows 8 中運行嗎 Apr 15, 2025 pm 07:24 PM

VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

visual studio code 可以用於 python 嗎 visual studio code 可以用於 python 嗎 Apr 15, 2025 pm 08:18 PM

VS Code 可用於編寫 Python,並提供許多功能,使其成為開發 Python 應用程序的理想工具。它允許用戶:安裝 Python 擴展,以獲得代碼補全、語法高亮和調試等功能。使用調試器逐步跟踪代碼,查找和修復錯誤。集成 Git,進行版本控制。使用代碼格式化工具,保持代碼一致性。使用 Linting 工具,提前發現潛在問題。

notepad 怎麼運行python notepad 怎麼運行python Apr 16, 2025 pm 07:33 PM

在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後,在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。

vscode 擴展是否是惡意的 vscode 擴展是否是惡意的 Apr 15, 2025 pm 07:57 PM

VS Code 擴展存在惡意風險,例如隱藏惡意代碼、利用漏洞、偽裝成合法擴展。識別惡意擴展的方法包括:檢查發布者、閱讀評論、檢查代碼、謹慎安裝。安全措施還包括:安全意識、良好習慣、定期更新和殺毒軟件。

See all articles