Extraction de l'attribut HREF avec BeautifulSoup
Dans ce scénario, vous souhaitez extraire l'attribut href "some_url" du contenu HTML suivant :
<code class="html"><a href="some_url">next</a> <span class="class">...</span></code>
Utilisation de la méthode find_all() de BeautifulSoup
Pour récupérer cet attribut spécifique, utilisez la méthode find_all() comme suit :
<code class="python">from bs4 import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print("Found the URL:", a['href'])</code>
Compatibilité Python 2 vers Python 3
Notez que ce code fonctionne à la fois pour Python 2 et Python 3. Cependant, dans les anciennes versions de BeautifulSoup (antérieures à la version 4), la méthode find_all() a été nommé findAll.
Récupération de toutes les balises avec des attributs HREF
Si vous souhaitez récupérer toutes les balises qui possèdent un attribut href, quel que soit leur nom de balise, omettez simplement le paramètre de nom de balise :
<code class="python">href_tags = soup.find_all(href=True)</code>
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!