Python使用四種方法實現獲取當前頁面內所有連結的對比分析-Python教學-PHP中文網

Python使用四種方法實現獲取當前頁面內所有連結的對比分析

黄舟

發布： 2017-08-20 10:28:38

原創

2134 人瀏覽過

這篇文章主要介紹了Python獲取當前頁面內所有鏈接的方法,結合實例形式對比分析了Python常用的四種獲取頁面鏈接的方法,並附帶了iframe框架內鏈接的獲取方法,需要的朋友可以參考下

本文實例講述了Python獲取目前頁面內所有連結的四種方法。分享給大家供大家參考，具體如下：

&#39;&#39;&#39;
得到当前页面所有连接
&#39;&#39;&#39;
import requests
import re
from bs4 import BeautifulSoup
from lxml import etree
from selenium import webdriver
url = &#39;http://www.testweb.com&#39;
r = requests.get(url)
r.encoding = &#39;gb2312&#39;
# 利用 re （太黄太暴力！）
matchs = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\&#39;).+?(?=\&#39;)" , r.text)
for link in matchs:
  print(link)
print()
# 利用 BeautifulSoup4 （DOM树）
soup = BeautifulSoup(r.text,&#39;lxml&#39;)
for a in soup.find_all(&#39;a&#39;):
  link = a[&#39;href&#39;]
  print(link)
print()
# 利用 lxml.etree （XPath）
tree = etree.HTML(r.text)
for link in tree.xpath("//@href"):
  print(link)
print()
# 利用selenium（要开浏览器！）
driver = webdriver.Firefox()
driver.get(url)
for link in driver.find_elements_by_tag_name("a"):
  print(link.get_attribute("href"))
driver.close()

登入後複製

#注意：若頁面中含有iframe，則iframe 內所包含頁面的所有標籤都無法用以上四種方法獲得！！！此時則要：

# 再打开所有iframe查找全部的a标签
for iframe in soup.find_all(&#39;iframe&#39;):
  url_ifr = iframe[&#39;src&#39;] # 取得当前iframe的src属性值 
  rr = requests.get(url_ifr)
  rr.encoding = &#39;gb2312&#39;
  soup_ifr = BeautifulSoup(rr.text,&#39;lxml&#39;)
  for a in soup_ifr.find_all(&#39;a&#39;):
    link = a[&#39;href&#39;]
    m = re.match(r&#39;http:\/\/.*?(?=\/)&#39;,link)
    #print(link)
    if m:
      all_urls.add(m.group(0))

登入後複製

以上是Python使用四種方法實現獲取當前頁面內所有連結的對比分析的詳細內容。更多資訊請關注PHP中文網其他相關文章！