Inhaltsverzeichnis
【原创】时尚首席(关于时尚,名利,事业,爱情,励志)
xxxxxxxxxx
Heim Backend-Entwicklung Python-Tutorial 零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版

零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版

Jun 10, 2016 pm 03:19 PM
python 爬虫

百度贴吧的爬虫制作和糗百的爬虫制作原理基本相同,都是通过查看源码扣出关键数据,然后将其存储到本地txt文件。

项目内容:

用Python写的百度贴吧的网络爬虫。

使用方法:

新建一个BugBaidu.py文件,然后将代码复制到里面后,双击运行。

程序功能:

将贴吧中楼主发布的内容打包txt存储到本地。

原理解释:

首先,先浏览一下某一条贴吧,点击只看楼主并点击第二页之后url发生了一点变化,变成了:
http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1
可以看出来,see_lz=1是只看楼主,pn=1是对应的页码,记住这一点为以后的编写做准备。
这就是我们需要利用的url。
接下来就是查看页面源码。
首先把题目抠出来存储文件的时候会用到。
可以看到百度使用gbk编码,标题使用h1标记:

复制代码 代码如下:

【原创】时尚首席(关于时尚,名利,事业,爱情,励志)

 

同样,正文部分用div和class综合标记,接下来要做的只是用正则表达式来匹配即可。
运行截图:

生成的txt文件:

复制代码 代码如下:

# -*- coding: utf-8 -*- 
#--------------------------------------- 
#   程序:百度贴吧爬虫 
#   版本:0.5 
#   作者:why 
#   日期:2013-05-16 
#   语言:Python 2.7 
#   操作:输入网址后自动只看楼主并保存到本地文件 
#   功能:将楼主发布的内容打包txt存储到本地。 
#--------------------------------------- 
  
import string 
import urllib2 
import re 
 
#----------- 处理页面上的各种标签 ----------- 
class HTML_Tool: 
    # 用非 贪婪模式 匹配 \t 或者 \n 或者 空格 或者 超链接 或者 图片 
    BgnCharToNoneRex = re.compile("(\t|\n| ||零基础写python爬虫之抓取百度贴吧并存储到本地txt文件改进版)") 
     
    # 用非 贪婪模式 匹配 任意标签 
    EndCharToNoneRex = re.compile("<.>") 
 
    # 用非 贪婪模式 匹配 任意

标签 
    BgnPartRex = re.compile("

") 
    CharToNewLineRex = re.compile("(
|||
|
)") 
    CharToNextTabRex = re.compile("") 
 
    # 将一些html的符号实体转变为原始符号 
    replaceTab = [("",">"),("&","&"),("&","\""),(" "," ")] 
     
    def Replace_Char(self,x): 
        x = self.BgnCharToNoneRex.sub("",x) 
        x = self.BgnPartRex.sub("\n    ",x) 
        x = self.CharToNewLineRex.sub("\n",x) 
        x = self.CharToNextTabRex.sub("\t",x) 
        x = self.EndCharToNoneRex.sub("",x) 
 
        for t in self.replaceTab:   
            x = x.replace(t[0],t[1])   
        return x   
     
class Baidu_Spider: 
    # 申明相关的属性 
    def __init__(self,url):   
        self.myUrl = url + '?see_lz=1' 
        self.datas = [] 
        self.myTool = HTML_Tool() 
        print u'已经启动百度贴吧爬虫,咔嚓咔嚓' 
   
    # 初始化加载页面并将其转码储存 
    def baidu_tieba(self): 
        # 读取页面的原始信息并将其从gbk转码 
        myPage = urllib2.urlopen(self.myUrl).read().decode("gbk") 
        # 计算楼主发布内容一共有多少页 
        endPage = self.page_counter(myPage) 
        # 获取该帖的标题 
        title = self.find_title(myPage) 
        print u'文章名称:' + title 
        # 获取最终的数据 
        self.save_data(self.myUrl,title,endPage) 
 
    #用来计算一共有多少页 
    def page_counter(self,myPage): 
        # 匹配 "共有12页" 来获取一共有多少页 
        myMatch = re.search(r'class="red">(\d+?)', myPage, re.S) 
        if myMatch:   
            endPage = int(myMatch.group(1)) 
            print u'爬虫报告:发现楼主共有%d页的原创内容' % endPage 
        else: 
            endPage = 0 
            print u'爬虫报告:无法计算楼主发布内容有多少页!' 
        return endPage 
 
    # 用来寻找该帖的标题 
    def find_title(self,myPage): 
        # 匹配

xxxxxxxxxx

找出标题 
        myMatch = re.search(r'(.*?)', myPage, re.S) 
        title = u'暂无标题' 
        if myMatch: 
            title  = myMatch.group(1) 
        else: 
            print u'爬虫报告:无法加载文章标题!' 
        # 文件名不能包含以下字符: \ / : * ? " | 
        title = title.replace('\\','').replace('/','').replace(':','').replace('*','').replace('?','').replace('"','').replace('>','').replace('         return title 
 
    # 用来存储楼主发布的内容 
    def save_data(self,url,title,endPage): 
        # 加载页面数据到数组中 
        self.get_data(url,endPage) 
        # 打开本地文件 
        f = open(title+'.txt','w+') 
        f.writelines(self.datas) 
        f.close() 
        print u'爬虫报告:文件已下载到本地并打包成txt文件' 
        print u'请按任意键退出...' 
        raw_input(); 
 
    # 获取页面源码并将其存储到数组中 
    def get_data(self,url,endPage): 
        url = url + '&pn=' 
        for i in range(1,endPage+1): 
            print u'爬虫报告:爬虫%d号正在加载中...' % i 
            myPage = urllib2.urlopen(url + str(i)).read() 
            # 将myPage中的html代码处理并存储到datas里面 
            self.deal_data(myPage.decode('gbk')) 
             
    # 将内容从页面代码中抠出来 
    def deal_data(self,myPage): 
        myItems = re.findall('id="post_content.*?>(.*?)',myPage,re.S) 
        for item in myItems: 
            data = self.myTool.Replace_Char(item.replace("\n","").encode('gbk')) 
            self.datas.append(data+'\n') 

#-------- 程序入口处 ------------------ 
print u"""#---------------------------------------
#   程序:百度贴吧爬虫
#   版本:0.5
#   作者:why
#   日期:2013-05-16
#   语言:Python 2.7
#   操作:输入网址后自动只看楼主并保存到本地文件
#   功能:将楼主发布的内容打包txt存储到本地。
#---------------------------------------
""" 
# 以某小说贴吧为例子 
# bdurl = 'http://tieba.baidu.com/p/2296712428?see_lz=1&pn=1' 
 
print u'请输入贴吧的地址最后的数字串:' 
bdurl = 'http://tieba.baidu.com/p/' + str(raw_input(u'http://tieba.baidu.com/p/'))  
 
#调用 
mySpider = Baidu_Spider(bdurl) 
mySpider.baidu_tieba() 

以上就是改进之后的抓取百度贴吧的全部代码了,非常的简单实用吧,希望能对大家有所帮助

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Kann der Python -Dolmetscher im Linux -System gelöscht werden? Kann der Python -Dolmetscher im Linux -System gelöscht werden? Apr 02, 2025 am 07:00 AM

In Bezug auf das Problem der Entfernung des Python -Dolmetschers, das mit Linux -Systemen ausgestattet ist, werden viele Linux -Verteilungen den Python -Dolmetscher bei der Installation vorinstallieren, und verwendet den Paketmanager nicht ...

Wie löst ich das Problem der Erkennung von kundenspezifischen Dekoratoren in Python? Wie löst ich das Problem der Erkennung von kundenspezifischen Dekoratoren in Python? Apr 02, 2025 am 06:42 AM

Lösung für die Erkennung von Pylanztypen bei der Verwendung des benutzerdefinierten Dekorators in der Python -Programmierung ist Decorator ein leistungsstarkes Werkzeug, mit dem Zeilen hinzugefügt werden können ...

Wie löste ich Berechtigungsprobleme bei der Verwendung von Python -Verssionsbefehl im Linux Terminal? Wie löste ich Berechtigungsprobleme bei der Verwendung von Python -Verssionsbefehl im Linux Terminal? Apr 02, 2025 am 06:36 AM

Verwenden Sie Python im Linux -Terminal ...

Python 3.6 Laden Sie Giftedatei Fehler ModulenotFoundError: Was soll ich tun, wenn ich die Gurkendatei '__builtin__' lade? Python 3.6 Laden Sie Giftedatei Fehler ModulenotFoundError: Was soll ich tun, wenn ich die Gurkendatei '__builtin__' lade? Apr 02, 2025 am 06:27 AM

Laden Sie die Gurkendatei in Python 3.6 Umgebungsfehler: ModulenotFoundError: Nomodulenamed ...

Teilen Fastapi und AIOHTTP dieselbe globale Ereignisschleife? Teilen Fastapi und AIOHTTP dieselbe globale Ereignisschleife? Apr 02, 2025 am 06:12 AM

Kompatibilitätsprobleme zwischen asynchronen Python -Bibliotheken in Python, asynchrones Programmieren ist zum Prozess der hohen Parallelität und der I/O geworden ...

Wie kann ich sicherstellen, dass der Kinderprozess auch endet, nachdem er den übergeordneten Prozess über Signal in Python getötet hat? Wie kann ich sicherstellen, dass der Kinderprozess auch endet, nachdem er den übergeordneten Prozess über Signal in Python getötet hat? Apr 02, 2025 am 06:39 AM

Das Problem und die Lösung des Kinderprozesses werden weiterhin ausgeführt, wenn Signale zum Töten des übergeordneten Prozesses verwendet werden. In der Python -Programmierung, nachdem er den übergeordneten Prozess durch Signale getötet hatte, ist der Kinderprozess immer noch ...

Was soll ich tun, wenn das Modul '__builtin__' beim Laden der Gurkendatei in Python 3.6 nicht gefunden wird? Was soll ich tun, wenn das Modul '__builtin__' beim Laden der Gurkendatei in Python 3.6 nicht gefunden wird? Apr 02, 2025 am 07:12 AM

Laden Sie Gurkendateien in Python 3.6 Umgebungsbericht Fehler: ModulenotFoundError: Nomodulennamen ...

See all articles