如何使用 BeautifulSoup 提取「href」屬性
處理 HTML 資料時,檢索「href」屬性等特定資訊至關重要。在這種情況下,我們有兩個標籤,一個帶有嵌套元素,目標是從“a”標籤中提取“href”屬性,忽略文字內容。
要使用 BeautifulSoup 實現這一點,您可以使用「find_all」方法。此方法可讓您根據各種條件(包括屬性)搜尋標籤。程式碼如下:
from bs4 import BeautifulSoup html = '''<a href="some_url">next</a> <span class="class"><a href="another_url">later</a></span>''' soup = BeautifulSoup(html) for a in soup.find_all('a', href=True): print("Found the URL:", a['href'])
此程式碼迭代所有具有 'href' 屬性的 'a' 標籤,並列印每個標籤的 'href' 屬性的值。輸出將為:
Found the URL: some_url Found the URL: another_url
或者,如果您想檢索具有'href' 屬性的所有標籤,無論其名稱如何,您可以使用:
href_tags = soup.find_all(href=True)
此方法傳回HTML文檔中所有具有“href”屬性的標籤的清單。
以上是如何使用 BeautifulSoup 從嵌套 HTML 元素中提取'href”屬性?的詳細內容。更多資訊請關注PHP中文網其他相關文章!