Python提取網頁中超連結的方法

高洛峰
發布: 2017-02-22 16:52:18
原創
3208 人瀏覽過

很多人在一開始學習Python,會打算用作爬蟲開發。既然要做爬蟲,首先就要抓取網頁,並且從網頁中提取出超連結位址。這篇文章跟大家分享一個簡單的方法,有需要的可以參考借鏡。

以下是最簡單的實作方法,先將目標網頁抓回來,然後透過正規比對a標籤中的href屬性來獲得超連結

程式碼如下:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a
登入後複製


更多Python提取網頁中超連結的方法相關文章請關注PHP中文網!


相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!