网页抓取：缺少 href 属性 - 需要模拟鼠标点击进行网页抓取吗？

Question

对于一个有趣的网络抓取项目，我想从ttps://www.nhl.com/stats/teams收集NHL数据。有一个可点击的Excel导出标签，我可以使用selenium和bs4找到它。不幸的是，事情到这里就结束了：由于没有href属性，我似乎无法访问数据。我通过使用pynput模拟鼠标点击得到了我想要的，但我想知道：我可以采取不同的做法吗？如果感觉很笨拙。->带有导出图标的标签可以在这里找

P粉807471604 · Answer

没有href属性，通过JS触发下载。使用 selenium 时找到您的元素并使用 .click() 下载文件：

driver.find_element(By.CSS_SELECTOR,'h2>a').click()

在这里使用 css 选择器 来获取直接子级 的

或者通过以styles__ExportIcon开头的类直接选择它：

driver.find_element(By.CSS_SELECTOR,'a[class^="styles__ExportIcon"]').click()

示例

您可能需要处理 onetrust 横幅，因此请先单击它，然后下载该表。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

url = 'https://www.nhl.com/stats/teams'
driver.get(url)
driver.find_element(By.CSS_SELECTOR,'#onetrust-reject-all-handler').click()
driver.find_element(By.CSS_SELECTOR,'h2>a').click()