使用 Python 和 BeautifulSoup 擷取網頁連結
從網頁擷取連結是網頁抓取中常見的任務。這可以使用 Python 的 BeautifulSoup 函式庫輕鬆完成。
使用 SoupStrainer
為了獲得最佳效能,請使用 BeautifulSoup 的 SoupStrainer。此類別允許透過指定所需的標籤類型來進行有針對性的解析。要檢索鏈接,請使用:
parse_only=SoupStrainer('a')
檢索鏈接 URL
要獲取鏈接的 URL,請檢查 'a' 標籤的 'href'屬性:
for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')): if link.has_attr('href'): print(link['href'])
美湯文件
請參閱廣泛的BeautifulSoup 文件以取得進一步指導:
額外註解
SoupStrainer 透過減少記憶體消耗和處理時間來增強效能。當預先知道要解析的內容時,它特別有用。
以上是如何使用Python和BeautifulSoup高效提取網頁連結?的詳細內容。更多資訊請關注PHP中文網其他相關文章!