Récupération de liens à partir de pages Web avec Python et BeautifulSoup
Cet article montre comment récupérer les liens d'une page Web et rassembler leurs adresses URL en utilisant Python et BeautifulSoup bibliothèque.
Problème :
Comment extraire les URL des liens intégrés dans une page Web à l'aide de Python ?
Solution :
Pour y parvenir, vous pouvez utiliser la classe SoupStrainer fournie par BeautifulSoup. L'extrait de code suivant illustre le processus :
import httplib2 from bs4 import BeautifulSoup, SoupStrainer http = httplib2.Http() status, response = http.request('http://www.nytimes.com') for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
Ce code établit une connexion à une page Web spécifiée, à savoir « http://www.nytimes.com » dans l'exemple. À l'aide de BeautifulSoup, il analyse la réponse HTML et applique le filtre SoupStrainer('a'), qui se concentre sur les balises 'a' (représentant des liens) dans la page. Pour chaque lien trouvé, le code récupère son attribut 'href', qui contient l'adresse URL réelle.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!