使用 Excel 和 Python 從互聯網獲取數據
今天的文章主要分為兩個部分,一是用透過Python建立一個資料網站,二是分別使用Excel和Python從編寫的Web網站上取得資料。
一、建置測試用網站資料
透過Python Flask Web框架分別建構一個Web網站和一個Web API服務。
1.建立Web網站
新建一個名為「5-5-WebTable.py」的Python腳本,建立一個包含表格的簡單網頁。如果讀者對建置方法不感興趣,可跳過以下程式碼,直接執行腳本「5-5-WebTable.py」開啟網站。
(1)安裝flask套件。
pip install flask
(2)建立包含表格的網頁。
from flask import Flask app = Flask(__name__)# 创建Falsk Web应用实例 # 将路由“/”映射到table_info函数,函数返回HTML代码 @app.route('/') def table_info(): return """<h2 id="HTML表格实例-用于提供给Excel和Python读取">HTML表格实例,用于提供给Excel和Python读取</h2> <table border="1"> <caption>用户信息表</caption> <tbody><tr> <th>姓名</th> <th>性别</th> <th>年龄</th> </tr> <tr> <td>小米</td> <td>女</td> <td>22</td> </tr> ………. </tbody></table>""" if __name__ == '__main__': app.debug = True# 启用调试模式 app.run()# 运行,网站端口默认为5000
透過指令「python ./5-5-WebTable.py」啟動網站,然後在瀏覽器中輸入http://127.0.0.1:5000/,出現如圖1所示的網頁內容。
圖1 使用Flask建置的測試網站
#2.建構Web API服務
新建一個名為「5-5- WebAPI.py」的Python腳本,使用flask_restplus套件建構Web API服務。如果讀者對建置方法不感興趣,可跳過以下程式碼,直接執行腳本「5-5-WebAPI.py」開啟Web API服務。
(1)安裝flask_restplus套件。
pip install flask-restplus
(2)導入必要的函式庫與初始化應用程式物件。
from flask import Flask # Api类是Web API应用的入口,需要用Flask应用程序初始化 from flask_restplus import Api # Resource类是HTTP请求的资源的基类 from flask_restplus import Resource # fields类用于定义数据的类型和格式 from flask_restplus import fields app = Flask(__name__)# 创建Falsk Web应用实例 # 在flask应用的基础上构建flask_restplusApi对象 api = Api(app, version='1.0', title='Excel集成Python数据分析-测试用WebAPI', description='测试用WebAPI', ) # 使用namespace函数生成命名空间,用于为资源分组 ns = api.namespace('ExcelPythonTest', description='Excel与Python Web API测试') # 使用api.model函数生成模型对象 todo = api.model('task_model', { 'id': fields.Integer(readonly=True, description='ETL任务唯一标识'), 'task': fields.String(required=True, description='ETL任务详情') })
(3)Web API資料操作類,包含增、刪、改、查等方法。
class TodoDAO(object): def __init__(self): self.counter = 0 self.todos = [] def get(self, id): for todo in self.todos: if todo['id'] == id: return todo api.abort(404, "ETL任务 {} 不存在".format(id)) def create(self, data): todo = data todo['id'] = self.counter = self.counter + 1 self.todos.append(todo) return todo # 实例化数据操作,创建3条测试数据 DAO = TodoDAO() DAO.create({'task': 'ETL-抽取数据操作'}) DAO.create({'task': 'ETL-数据清洗转换'}) DAO.create({'task': 'ETL-数据加载操作'})
(4)建構Web API的路由對映。
HTTP資源請求類別從Resource類別繼承,然後對應到不同的路由,同時指定可使用HTTP方法。
@ns.route('/')# 路由“/”对应的资源类为TodoList,可使用get方法和post方法进行请求 class TodoList(Resource): @ns.doc('list_todos')# @doc装饰器对应API文档的信息 @ns.marshal_list_with(todo)# @marshal_xxx装饰器对模型数据进行格式转换与输出 def get(self):# 定义get方法获取所有的任务信息 return DAO.todos @ns.doc('create_todo') @ns.expect(todo) @ns.marshal_with(todo, code=201) def post(self):# 定义post方法获取所有的任务信息 return DAO.create(api.payload), 201 # 路由/<int:id>对应的资源类为Todo,可使用get、delete、put方法进行请求 @ns.route('/<int:id>') @ns.response(404, '未发现相关ETL任务') @ns.param('id', 'ETL任务ID号') class Todo(Resource): @ns.doc('get_todo') @ns.marshal_with(todo) def get(self, id): return DAO.get(id) @ns.doc('delete_todo') @ns.response(204, 'ETL任务已经删除') def delete(self, id): DAO.delete(id) return '', 204 @ns.expect(todo) @ns.marshal_with(todo) def put(self, id): return DAO.update(id, api.payload) if __name__ == '__main__': app.run(debug=True, port=8000)# 启动Web API服务,端口为8000
(4)開啟Web API服務。
透過指令「python ./5-5-WebAPI.py」啟動Web API服務,在瀏覽器中輸入「http://127.0.0.1:8000/」將出現如圖5-23所示的Web API服務請求方法清單。
圖2 WebAPI服務要求方法清單
#2、抓取用網頁資料
Excel可以透過「資料」標籤下的「自網站」功能抓取網頁資料。 Python可以使用 requests 函式庫、Beautiful Soup套件、Scrapy框架抓取網頁資料。
1.透過Excel抓取
點選「資料」→「自其他來源」→「自網站」功能。 Excel可讀取的網頁資料有限制:動態網頁資料無法自動識別,非表格資料無法自動辨識。
(1)點選「資料」→「自其他來源」→「自網站」功能。
(2)確保在5.5.1節中編寫的Web網站已經開啟。
(3)輸入網站URL位址「http://127.0.0.1:5000/」
按一下「進階」按鈕可設定更詳細的HTTP請求訊息,然後按一下「確定”按鈕,如圖3所示。
圖3 設定要讀取網站的URL
(4)在「導航器」視窗中選擇匯入資料。
如圖4所示,Excel自動辨識網頁中的表格數據,選擇表名後點選「載入」按鈕即可。
圖4 Excel自動辨識網頁中的表格資料
2.使用Python抓取
下列示範使用requests庫抓取整個網頁中的數據,然後使用Beautiful Soup解析網頁。讀者可參考本書程式碼素材檔案「5-5-web.ipynb」進行學習。
(1)透過requests讀取網頁資料。
import requests #导入requests包 url ='http://127.0.0.1:5000/' strhtml= requests.get(url) #使用get方法请求网页数据
(2)透過Beautiful Soup解析網頁。
from bs4 import BeautifulSoup soup = BeautifulSoup(strhtml.text)# 将网页内容作为参数,创建soup对象 table = soup.find('table')# 查找网页中的table元素 table_body = table.find('tbody')# 查找table元素中的tbody元素 data = [] rows = table_body.find_all('tr')# 查找表中的所有tr元素 for row in rows:# 遍历数据 cols = row.find_all('td') cols = [ele.text.strip() for ele in cols] data.append([ele for ele in cols if ele]) # 结果输出:[[], ['小米', '女', '22'],['小明','男','23'],……
3、呼叫Web API服務
Excel可以透過「資料」標籤下的「自網站」功能呼叫Web API服務。 Python可以使用 requests 函式庫、Beautiful Soup套件、Scrapy框架呼叫Web API來取得資料。
1.使用Excel呼叫
(1)確保5.5.1節中所寫的Web API服務已經開啟。
(2)輸入Web API方法對應的URL:http://127.0.0.1:8000/ExcelPythonTest/。
(3)處理傳回的資料。
呼叫Web API服務後資料以JSON格式傳回,依照5.4.3小節介紹的方法處理JSON資料。
2.使用Python呼叫
使用requests函式庫呼叫Web API方法,然後對傳回的JSON資料進行處理,讀者可參考本書程式碼素材檔「5-5-api.ipynb ”進行學習。
import requests#导入requests包 url ='http://127.0.0.1:8000/ExcelPythonTest/' strhtml= requests.get(url)#使用get方法获取网页数据 import pandas as pd frame= pd.read_json(strhtml.text)#使用Pandas包中的read_json函数 print(frame) #结果输出: id task 0 1 ETL-抽取数据操作 1 2 ETL-数据清洗转换 2 3 ETL-数据加载操作
4、两种方法对比
表1所示为Excel和Python抓取互联网数据方法的对比。需要注意Excel从互联网抓取数据的功能并不完善。
表1 Excel和Python抓取互联网数据方法对比
以上是使用 Excel 和 Python 從互聯網獲取數據的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

PHP主要是過程式編程,但也支持面向對象編程(OOP);Python支持多種範式,包括OOP、函數式和過程式編程。 PHP適合web開發,Python適用於多種應用,如數據分析和機器學習。

PHP適合網頁開發和快速原型開發,Python適用於數據科學和機器學習。 1.PHP用於動態網頁開發,語法簡單,適合快速開發。 2.Python語法簡潔,適用於多領域,庫生態系統強大。

Python更適合初學者,學習曲線平緩,語法簡潔;JavaScript適合前端開發,學習曲線較陡,語法靈活。 1.Python語法直觀,適用於數據科學和後端開發。 2.JavaScript靈活,廣泛用於前端和服務器端編程。

PHP起源於1994年,由RasmusLerdorf開發,最初用於跟踪網站訪問者,逐漸演變為服務器端腳本語言,廣泛應用於網頁開發。 Python由GuidovanRossum於1980年代末開發,1991年首次發布,強調代碼可讀性和簡潔性,適用於科學計算、數據分析等領域。

VS Code可以在Windows 8上運行,但體驗可能不佳。首先確保系統已更新到最新補丁,然後下載與系統架構匹配的VS Code安裝包,按照提示安裝。安裝後,注意某些擴展程序可能與Windows 8不兼容,需要尋找替代擴展或在虛擬機中使用更新的Windows系統。安裝必要的擴展,檢查是否正常工作。儘管VS Code在Windows 8上可行,但建議升級到更新的Windows系統以獲得更好的開發體驗和安全保障。

VS Code 可用於編寫 Python,並提供許多功能,使其成為開發 Python 應用程序的理想工具。它允許用戶:安裝 Python 擴展,以獲得代碼補全、語法高亮和調試等功能。使用調試器逐步跟踪代碼,查找和修復錯誤。集成 Git,進行版本控制。使用代碼格式化工具,保持代碼一致性。使用 Linting 工具,提前發現潛在問題。

在 Notepad 中運行 Python 代碼需要安裝 Python 可執行文件和 NppExec 插件。安裝 Python 並為其添加 PATH 後,在 NppExec 插件中配置命令為“python”、參數為“{CURRENT_DIRECTORY}{FILE_NAME}”,即可在 Notepad 中通過快捷鍵“F6”運行 Python 代碼。

VS Code 擴展存在惡意風險,例如隱藏惡意代碼、利用漏洞、偽裝成合法擴展。識別惡意擴展的方法包括:檢查發布者、閱讀評論、檢查代碼、謹慎安裝。安全措施還包括:安全意識、良好習慣、定期更新和殺毒軟件。
