Hrefs aus HTML mit BeautifulSoup extrahieren
Beim Web Scraping ist das Extrahieren spezifischer Informationen aus HTML eine häufige Aufgabe. Eine dieser Informationen kann das href-Attribut von Ankertags () sein. BeautifulSoup, eine weit verbreitete Python-Bibliothek, bietet verschiedene Methoden zum Navigieren in HTML und zum Abrufen gewünschter Elemente.
Stellen Sie sich eine Situation vor, in der wir die href aus HTML extrahieren müssen, das mehrere Tags enthält, einschließlich und Dies wird Gibt eine Liste aller Tags im HTML mit einem href-Attribut zurück.<code class="python">from bs4 import BeautifulSoup
html = '''<a href="some_url">next</a>
<span class="class"><a href="another_url">later</a></span>'''
soup = BeautifulSoup(html)
for a in soup.find_all('a', href=True):
print("Found the URL:", a['href'])<p>Die Methode find_all benötigt zwei Argumente: den Tag-Namen, nach dem gesucht werden soll, und ein optionales Wörterbuch mit Attributen, nach denen gefiltert werden soll. In diesem Fall suchen wir nach „a“-Tags mit dem href-Attribut und geben dann den Wert des href-Attributs für jedes übereinstimmende Tag aus.</p>
<p>Für ältere Versionen von BeautifulSoup lautet der Methodenname „findAll“. anstelle von „find_all“.</p>
<p>Beachten Sie, dass wir den Tag-Namen-Parameter weglassen können, wenn wir alle Tags mit einem href-Attribut extrahieren möchten, unabhängig von ihren Namen:</p>
<pre class="brush:php;toolbar:false"><code class="python">href_tags = soup.find_all(href=True)</code>
Das obige ist der detaillierte Inhalt vonWie kann ich mit BeautifulSoup href-Attribute aus HTML extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!