Récupération de liens de pages Web avec Python et BeautifulSoup
Extraire des liens de pages Web est une tâche courante dans le web scraping. Cela peut être facilement accompli en utilisant la bibliothèque BeautifulSoup de Python.
Utilisation de SoupStrainer
Pour des performances optimales, utilisez SoupStrainer de BeautifulSoup. Cette classe permet une analyse ciblée en spécifiant le type de balise souhaité. Pour récupérer les liens, utilisez :
parse_only=SoupStrainer('a')
Récupération des URL des liens
Pour obtenir les URL des liens, examinez l'attribut 'href' de la balise 'a' :
for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
BeautifulSoup Documentation
Référez-vous à la documentation complète de BeautifulSoup pour plus de conseils :
Supplémentaire Notes
SoupStrainer améliore les performances en réduisant la consommation de mémoire et le temps de traitement. C'est particulièrement utile lorsque le contenu analysé est connu à l'avance.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!