Gemeinschaft

Lernen

Tools-Bibliothek

KI-Tools

Freizeit

Deutsch

Heim > Backend-Entwicklung > Python-Tutorial > Python抓取Discuz!用户名脚本代码

Python抓取Discuz!用户名脚本代码

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2016-06-16 08:45:51

Original

1565 Leute haben es durchsucht

最近学习Python，于是就用Python写了一个抓取Discuz!用户名的脚本，代码很少但是很搓。思路很简单，就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户)，挂在VPS上就没管了，虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下：

复制代码代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本

import urllib
import urllib2
import re
import time

def BiduSpider():
     pattern = re.compile(r'(.*)的个人资料百度站长社区 ')
     uid=1
     thedatas = []
     while uid          theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒，以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()

if __name__ == '__main__':
     BiduSpider()

最终成果如下：

Python抓取Discuz!用户名脚本代码

Verwandte Etiketten：

discuz python

Vorheriger Artikel：python抓取京东商城手机列表url实例代码 Nächster Artikel：python正则表达式判断字符串是否是全部小写示例

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Wie LLMs funktionieren: Vorausbildung zu Nachtraining, neuronalen Netzwerken, Halluzinationen und Inferenz

2025-02-26 03:58:14
Ich kombinierte die Blockchain und die KI, um Kunst zu erzeugen. Hier ist das, was als nächstes geschah.

2025-02-26 03:38:10
Erweiterte schnelle Technik: Denkkette (COT)

2025-02-26 03:17:10
Wiederaufnahme der Augmented -Generation in SQLite

2025-02-26 02:49:09
So verwenden Sie eine mit LLM betriebene Kesselplatte zum Erstellen Ihrer eigenen Node.js-API

2025-02-26 01:08:13
LLMs für die Codierung im Jahr 2024: Preis, Leistung und der Kampf um das Beste

2025-02-26 00:46:10
Sehenssprachmodelle auffordern

2025-02-25 23:42:08
So messen Sie die Zuverlässigkeit der Reaktion eines Großsprachenmodells

2025-02-25 22:50:13
Eine Illusion des Lebens

2025-02-25 21:54:11
Wissenschaftler werden es ernst mit großen Sprachmodellen, die das menschliche Denken widerspiegeln

2025-02-25 20:45:11

Aktuelle Ausgaben

So installieren Sie discuz in phpStudy

Aus 1970-01-01 08:00:00

0

0

0

phpStudy – Apache+PHP5.2.17 lokales Setup Discuz!

Aus 1970-01-01 08:00:00

0

0

0

Problem mit Nginx beim Konfigurieren des Discuz-Domänennamens der zweiten Ebene

Aus 1970-01-01 08:00:00

0

0

0

Ich habe eine Website mit Laravel geschrieben und möchte die Anmeldung mit einem Discuz-Forum synchronisieren. Ist es einfach, ucenter zu verwenden, um dies zu erreichen? Hat das jemand gemacht?

Aus 1970-01-01 08:00:00

0

0

0

php – Diskutieren Sie das Single-Sign-On-Problem

Aus 1970-01-01 08:00:00

0

0

0

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage