使用 Python 抓取网页但不确定如何处理静态(?) URL
P粉293341969
P粉293341969 2024-02-17 17:14:50
0
1
386

我正在尝试学习如何从此网址提取数据: https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview

但是,问题是当我尝试切换页面时,URL 不会改变,因此我不确定如何枚举或循环它。由于网页有 3000 个销售数据点,正在尝试寻找更好的方法。

这是我的起始代码,它非常简单,但我将不胜感激任何可以提供的帮助或任何提示。我想我可能需要换成另一个包,但我不确定哪个可能是 beautifulsoup?

导入请求
url =“https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview”

html = requests.get(url).content
df_list = pd.read_html(html,标题 = 1)[0]
df_list = df_list.drop([0,1,2]) #删除不需要的行

P粉293341969
P粉293341969

全部回复(1)
P粉600845163

要从更多页面获取数据,您可以使用以下示例:

导入请求
将 pandas 导入为 pd
从 bs4 导入 BeautifulSoup


数据 = {
    "folder": "拍卖结果",
    “登录ID”:“00”,
    "页数": "1",
    "orderBy": "AdvNum",
    "orderDir": "asc",
    "justFirstCertOnGroups": "1",
    "doSearch": "真",
    "itemIDList": "",
    "itemSetIDList": "",
    “兴趣”: ””,
    “优质的”: ””,
    "itemSetDID": "",
}

url =“https://denver.coloradotaxsale.com/index.cfm?folder=auctionResults&mode=preview”


所有数据 = []

for data["pageNum"] in range(1, 3): # 

打印:

SEQ NUM 纳税年度 通知 地块 ID 面部数量 中标 卖给 标题> 96 000094 2020 00031-18-001-000 905.98 美元 81.00 美元 00005517 97 000095 2020 00031-18-002-000 750.13 美元 75.00 美元 00005517 98 000096 2020 00031-18-003-000 750.13 美元 75.00 美元 00005517 99 000097 2020 00031-18-004-000 750.13 美元 75.00 美元 00005517 100 000098 2020 00031-18-007-000 750.13 美元 76.00 美元 00005517 101 000099 2020 00031-18-008-000 905.98 美元 84.00 美元 00005517 102 000100 2020 00031-19-001-000 1,999.83 美元 171.00 美元 00005517 103 000101 2020 00031-19-004-000 1,486.49 美元 131.00 美元 00005517 104 000102 2020 00031-19-006-000 1,063.44 美元 96.00 美元 00005517 105 000103 2020 00031-20-001-000 1,468.47 美元 126.00 美元 00005517 表>
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板