Heim > Backend-Entwicklung > Python-Tutorial > Detaillierte Einführung in die einfache Crawler-Funktion basierend auf Python3.4

Detaillierte Einführung in die einfache Crawler-Funktion basierend auf Python3.4

巴扎黑
Freigeben: 2017-09-16 10:16:36
Original
1599 Leute haben es durchsucht

Dieser Artikel stellt hauptsächlich die Python3.4-Programmierung zur Implementierung einfacher Crawling- und Crawler-Funktionen vor, einschließlich Python3.4-Webseiten-Crawling und regelmäßiger Analyse im Zusammenhang mit Betriebstechniken.

Dieser Artikel beschreibt die Beispiele: Die Python3.4-Programmierung implementiert eine einfache Crawler-Funktion. Teilen Sie es als Referenz mit allen. Die Details lauten wie folgt:


import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36'),('Cookie','4564564564564564565646540')]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode('utf-8')
  reg='"screen_name":"(.*?)"'
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=['2808675432','3888405676','2628551531','2808587400']
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)
Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonDetaillierte Einführung in die einfache Crawler-Funktion basierend auf Python3.4. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage