So crawlen Sie die Baidu Cloud-Verbindungsmethode in Python-Python-Tutorial-php.cn

So crawlen Sie die Baidu Cloud-Verbindungsmethode in Python

巴扎黑

Freigeben： 2017-08-07 17:34:30

Original

2456 Leute haben es durchsucht

In diesem Artikel wird hauptsächlich der Beispielcode für das Crawlen der Baidu-Cloud-Verbindung mit der Python-URL vorgestellt, der einen bestimmten Referenzwert hat.

Schauen Sie sich die Programme an, die Sie zuvor geschrieben haben, und stellen Sie fest, dass ich etwas geschrieben habe Ich habe es gerade selbst geschrieben, weil ich Transformers sehen wollte. Es war mein erster Kontakt mit Python und es hat ungefähr zwei Tage gedauert, bis ich die Python-Sprache gelernt habe Ich kann es mir ansehen. Der damals geschriebene Code war wirklich niedrig. Obwohl es jetzt nicht so gut ist, haha, ich lerne noch, also werde ich nicht zu viel erklären. Der Code ist im Bild oben gezeigt, weil ich vergessen habe, was die Variablendeklaration war (manuelle Arroganz), und ich habe es nicht getan. Ich wusste damals noch nicht einmal, wie man eine Datei schreibt, haha Hahahahaha, ich wusste nicht, dass Klassen durch Init initialisiert werden können. Leider habe ich beim Erlernen von Python so viel gelernt.

from bs4 import BeautifulSoup
import urllib
import requests
import re

adr =[]

&#39;&#39;&#39;&#39;对搜素资源名字进行url编码&#39;&#39;&#39;
search_text =raw_input(&#39;请输入搜索资源名：&#39;)
search_text = search_text.decode(&#39;gbk&#39;)
search_text = search_text.encode(&#39;utf-8&#39;)
search_text = urllib.quote(search_text)


&#39;&#39;&#39;&#39;获取文件地址&#39;&#39;&#39;
home = urllib.urlopen(&#39;http://www.panduoduo.net/s/name/&#39;+search_text)


&#39;&#39;&#39;获取百度云地址&#39;&#39;&#39;
def getbaidu(adr):
  for i in adr:
    url = urllib.urlopen(&#39;http://www.panduoduo.net&#39;+i)
    bs = BeautifulSoup(url)
    bs1 = bs.select(&#39;.dbutton2&#39;)
    href = re.compile(&#39;http\%(\%|\d|\w|\/\/|\/|\.)*&#39;)
    b = href.search(str(bs1))
    name = str(bs.select(&#39;.center&#39;)).decode(&#39;utf-8&#39;)
    text1 = re.compile(&#39;\<h1\sclass\=\"center"\>[\d|\w|\D|\W]*\</h1\>&#39;)
    text2 = text1.search(name)
    rag1 = re.compile(&#39;\>[\d|\w|\D|\W]*\<&#39;)
    if text2:
      text3 = rag1.search(text2.group())
      if text3:
        print text3.group()
    if b:
      text = urllib.unquote(str(b.group())).decode(&#39;utf-8&#39;)
      print text

&#39;&#39;&#39;初始化&#39;&#39;&#39;
def init(adr):
  soup = BeautifulSoup(home)
  soup = soup.select(&#39;.row&#39;)
  pattern = re.compile(&#39;\/r\/\d+&#39;)
  for i in soup:
    i = str(i)
    adress = pattern.search(i)
    adress = adress.group()
    adr.append(adress)


print &#39;running---------&#39;    
init(adr)
getbaidu(adr)

Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonSo crawlen Sie die Baidu Cloud-Verbindungsmethode in Python. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!