Introduction détaillée à la fonction de robot d'exploration simple basée sur Python3.4-Tutoriel Python-php.cn

Introduction détaillée à la fonction de robot d'exploration simple basée sur Python3.4

巴扎黑

Libérer： 2017-09-16 10:16:36

original

1672 Les gens l'ont consulté

Cet article présente principalement la programmation Python3.4 pour implémenter des fonctions simples d'exploration et d'exploration, impliquant l'exploration de pages Web Python3.4 et des techniques d'exploitation liées à l'analyse régulière. Les amis dans le besoin peuvent s'y référer

Cet article décrit le. exemples La programmation Python3.4 implémente une fonction de robot d'exploration simple. Partagez-le avec tout le monde pour votre référence, les détails sont les suivants :

import urllib.request
import urllib.parse
import re
import urllib.request,urllib.parse,http.cookiejar
import time
def getHtml(url):
  cj=http.cookiejar.CookieJar()
  opener=urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))
  opener.addheaders=[(&#39;User-Agent&#39;,&#39;Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.101 Safari/537.36&#39;),(&#39;Cookie&#39;,&#39;4564564564564564565646540&#39;)]
  urllib.request.install_opener(opener)
  page = urllib.request.urlopen(url)
  html = page.read()
  return html
#print ( html)
#html = getHtml("http://weibo.com/")
def getimg(html):
  html = html.decode(&#39;utf-8&#39;)
  reg=&#39;"screen_name":"(.*?)"&#39;
  imgre = re.compile(reg)
  src=re.findall(imgre,html)
  return src
#print ("",getimg(html))
uid=[&#39;2808675432&#39;,&#39;3888405676&#39;,&#39;2628551531&#39;,&#39;2808587400&#39;]
for a in list(uid):
  print (getimg(getHtml("http://weibo.com/"+a)))
  time.sleep(1)

Copier après la connexion

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!