Heim > Backend-Entwicklung > Python-Tutorial > Python-Methode zum Extrahieren von Hyperlinks aus Webseiten

Python-Methode zum Extrahieren von Hyperlinks aus Webseiten

高洛峰
Freigeben: 2017-02-22 16:52:18
Original
3225 Leute haben es durchsucht

Viele Leute planen, Python für die Crawler-Entwicklung zu verwenden, wenn sie Python zum ersten Mal lernen. Da Sie einen Crawler verwenden möchten, müssen Sie zunächst die Webseite crawlen und die Hyperlink-Adresse aus der Webseite extrahieren. In diesem Artikel stellen wir Ihnen eine einfache Methode vor, auf die Sie bei Bedarf zurückgreifen können.

Das Folgende ist die einfachste Implementierungsmethode. Erfassen Sie zunächst die Zielwebseite und erhalten Sie dann den Hyperlink durch regelmäßigen Abgleich des href-Attributs im a-Tag lautet wie folgt:

import urllib2
import re
 
url = 'http://www.sunbloger.com/'
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"', doc)
for a in links:
  print a
Nach dem Login kopieren

Weitere Artikel im Zusammenhang mit Pythons Methode zum Extrahieren von Hyperlinks aus Webseiten Bitte achten Sie auf die chinesische PHP-Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage