Gemeinschaft

Lernen

Tools-Bibliothek

KI-Tools

Freizeit

Deutsch

Heim > Backend-Entwicklung > Python-Tutorial > Python-Methode zum Extrahieren von Hyperlinks aus Webseiten

Python-Methode zum Extrahieren von Hyperlinks aus Webseiten

高洛峰

Freigeben： 2017-02-22 16:52:18

Original

3319 Leute haben es durchsucht

Viele Leute planen, Python für die Crawler-Entwicklung zu verwenden, wenn sie Python zum ersten Mal lernen. Da Sie einen Crawler verwenden möchten, müssen Sie zunächst die Webseite crawlen und die Hyperlink-Adresse aus der Webseite extrahieren. In diesem Artikel stellen wir Ihnen eine einfache Methode vor, auf die Sie bei Bedarf zurückgreifen können.

Das Folgende ist die einfachste Implementierungsmethode. Erfassen Sie zunächst die Zielwebseite und erhalten Sie dann den Hyperlink durch regelmäßigen Abgleich des href-Attributs im a-Tag lautet wie folgt:

import urllib2
import re
 
url = &#39;http://www.sunbloger.com/&#39;
 
req = urllib2.Request(url)
con = urllib2.urlopen(req)
doc = con.read()
con.close()
 
links = re.findall(r&#39;href\=\"(http\:\/\/[a-zA-Z0-9\.\/]+)\"&#39;, doc)
for a in links:
  print a

Nach dem Login kopieren

Weitere Artikel im Zusammenhang mit Pythons Methode zum Extrahieren von Hyperlinks aus Webseiten Bitte achten Sie auf die chinesische PHP-Website!

Verwandte Etiketten：

python 网页超链接

Vorheriger Artikel：Beispiel einer Listeninitialisierungsmethode in Python Nächster Artikel：Python-Methode zum Auflösen verstümmelter chinesischer Zeichen, wenn Fedora zip dekomprimiert

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors