Maison > développement back-end > Tutoriel Python > Comment puis-je extraire des hyperliens et des URL d'une page Web à l'aide de Python et BeautifulSoup ?

Comment puis-je extraire des hyperliens et des URL d'une page Web à l'aide de Python et BeautifulSoup ?

Patricia Arquette
Libérer: 2024-12-08 00:12:11
original
1036 Les gens l'ont consulté

How Can I Extract Hyperlinks and URLs from a Webpage Using Python and BeautifulSoup?

Récupération de liens de pages Web avec Python et BeautifulSoup

Question : Comment extraire les hyperliens d'une page Web et obtenir leurs URL en utilisant Python ?

Réponse :

Pour extraire efficacement les liens et les adresses URL d'une page Web à l'aide de Python et BeautifulSoup, vous pouvez utiliser la classe SoupStrainer. Voici un extrait de code :

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])
Copier après la connexion

Ce code récupère d'abord le contenu HTML d'une page Web (à l'aide de la bibliothèque httplib2). Ensuite, il utilise BeautifulSoup pour analyser le code HTML, en filtrant uniquement les balises à l'aide de la classe SoupStrainer pour une meilleure efficacité. Enfin, il parcourt les balises a et imprime l'attribut href de chacune, extrayant ainsi efficacement les URL des liens.

Reportez-vous à la documentation BeautifulSoup pour des informations plus détaillées sur les différents scénarios d'analyse :

[BeautifulSoup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Derniers articles par auteur
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal