Python クローラー_関連する単語コードを収集
list1 = ["グループ","テクノロジー"]
リスト 1 の項目:
ip= Choice(iplist)
gjc = urllib.quote(item)
url = "http: //sug.so.360.cn/suggest/word?callback=suggest_so&encodein=utf-8&encodeout=utf-8&word="+gjc
ヘッダー = {
"GET":url,
"ホスト" :"sug.so.360.cn",
"Referer":"http://www.so.com/",
"User-Agent":"sMozilla/5.0 (Macintosh; Intel Mac OS) X 10_8_4) AppleWebKit/537.17 (KHTML、Gecko など) Chrome/24.0.1312.56 Safari/537.17"、
opener = urllib2.build_opener(proxy_support)
urllib2.install_opener( opener )
req = urllib2.Request(url)
ヘッダー内のキー:
req.add_header(key) ,headers[キー])
ss = re.findall(""(.*?)"",html)
ss の項目:
print item
time.sleep(2)