# -*- コーディング: utf-8 -*-
# 著者: Tianyi
# ブログ: http://www.90blog.org
# バージョン: 1.0
# 機能: Python は Baidu ウェブマスター プラットフォームのユーザー名スクリプトをキャプチャします
import urllib
import urllib2
import re
インポート時間
def BiduSpider():
pattern = re.compile(r'
(.*) ) 個人情報 Baidu ウェブマスター コミュニティ')
uid=1
thedatas = []
while uid theUrl = "http://bbs.zhanzhang.baidu . com/home.php?mod=space&uid="+str(uid)
uid +=1
theResponse = urllib2.urlopen(theUrl)
thePage = theResponse.read()
#通常の一致user name
theFindall = re.findall(pattern,thePage)
#頻繁なアクセスが禁止されないように 0.5 秒待ちます
time.sleep(0.5)
if theFindall :
#中文Encoding出力の文字化けを防ぐため
thedatas = theFindall[0].decode('utf-8').encode('gbk')
#テキスト テキスト ドキュメントを書きます
f = open('theUid.txt' ,'a')
f.writelines(thedatas+'n')
f.close()
if __name__ == '__main__':
BiduSpider()
最終結果は次のとおりです: