ホームページ > バックエンド開発 > Python チュートリアル > 関連単語を収集する Python Web クローラーの例

関連単語を収集する Python Web クローラーの例

WBOY
リリース: 2016-06-16 08:45:21
オリジナル
1500 人が閲覧しました

Python クローラー_関連する単語コードを収集

コードをコピーします コードは次のとおりです:

#coding:utf-8
import urllib2
import urllib
インポート re
インポート時間
ランダムなインポート選択から
#特別な注意事項、以下のリストのプロキシ IP は無効である可能性があります。有効なプロキシ IP に置き換えてください
iplist = [ '27.24.158.153: 81','46.209.70.74:8080','60.29.255.88:8888']

list1 = ["グループ","テクノロジー"]
リスト 1 の項目:
ip= Choice(iplist)
gjc = urllib.quote(item)
url = "http: //sug.so.360.cn/suggest/word?callback=suggest_so&encodein=utf-8&encodeout=utf-8&word="+gjc
ヘッダー = {
"GET":url,
"ホスト" :"sug.so.360.cn",
"Referer":"http://www.so.com/",
"User-Agent":"sMozilla/5.0 (Macintosh; Intel Mac OS) X 10_8_4) AppleWebKit/537.17 (KHTML、Gecko など) Chrome/24.0.1312.56 Safari/537.17"、

proxy_support = urllib2.ProxyHandler({'http':'http://'+ip})

opener = urllib2.build_opener(proxy_support)

urllib2.install_opener( opener )
req = urllib2.Request(url)

ヘッダー内のキー:
req.add_header(key) ,headers[キー])

html = urllib2.urlopen(req).read()


ss = re.findall(""(.*?)"",html)
ss の項目:
print item
time.sleep(2)

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート