Web Scraping: Fehlendes href-Attribut – Müssen Mausklicks für Web Scraping simuliert werden?

Question

Für ein unterhaltsames Web-Scraping-Projekt möchte ich NHL-Daten von ttps://www.nhl.com/stats/teams sammeln. Es gibt ein anklickbares Excel-Export-Label und ich kann es mit Selenium und bs4 finden. Leider endet es hier: Ich kann anscheinend nicht auf die Daten zugreifen, da es kein href-Attribut gibt. Ich habe erreicht, was ich wollte, indem ich Mausklicks mit Pynput simuliert habe, aber ich frage mich: Könnte ich es anders machen? Wenn es sich unangenehm anfühlt. ->Tag mit Export-Icon finden Sie hier

P粉807471604 · Answer

没有href属性，通过JS触发下载。使用 selenium 时找到您的元素并使用 .click() 下载文件：

driver.find_element(By.CSS_SELECTOR,'h2>a').click()

在这里使用 css 选择器 来获取直接子级 的

或者通过以styles__ExportIcon开头的类直接选择它：

driver.find_element(By.CSS_SELECTOR,'a[class^="styles__ExportIcon"]').click()

示例

您可能需要处理 onetrust 横幅，因此请先单击它，然后下载该表。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

url = 'https://www.nhl.com/stats/teams'
driver.get(url)
driver.find_element(By.CSS_SELECTOR,'#onetrust-reject-all-handler').click()
driver.find_element(By.CSS_SELECTOR,'h2>a').click()