Web scraping : attribut href manquant – Besoin de simuler les clics de souris pour le web scraping ?

Question

Pour un projet de web scraping amusant, je souhaite collecter des données de la LNH à partir de ttps://www.nhl.com/stats/teams. Il existe une étiquette d'exportation Excel cliquable et je peux la trouver en utilisant Selenium et bs4. Malheureusement, c'est là que ça se termine : je n'arrive pas à accéder aux données car il n'y a pas d'attribut href. J'ai obtenu ce que je voulais en simulant des clics de souris à l'aide de pynput, mais je me demande : puis-je le faire différemment ? Si cela semble gênant. ->Le tag avec l'icône d'exportation peut être trouvé ici

P粉807471604 · Answer

Non href属性，通过JS触发下载。使用 selenium 时找到您的元素并使用 .click() Télécharger le fichier :

driver.find_element(By.CSS_SELECTOR,'h2>a').click()

Utilisez la classe commençant par css 选择器 来获取直接子级 的

或者通过以styles__ExportIcon ici pour la sélectionner directement :

driver.find_element(By.CSS_SELECTOR,'a[class^="styles__ExportIcon"]').click()

Exemple

Vous devrez peut-être gérer la bannière onetrust, alors cliquez d'abord dessus puis téléchargez le formulaire.

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager
driver = webdriver.Chrome(service=Service(ChromeDriverManager().install()))

url = 'https://www.nhl.com/stats/teams'
driver.get(url)
driver.find_element(By.CSS_SELECTOR,'#onetrust-reject-all-handler').click()
driver.find_element(By.CSS_SELECTOR,'h2>a').click()