Inhaltsverzeichnis
(.*?)
Heim Backend-Entwicklung Python-Tutorial 多线程爬虫批量下载pcgame图片url 保存为xml的实现代码

多线程爬虫批量下载pcgame图片url 保存为xml的实现代码

Jun 16, 2016 am 08:46 AM
多线程 批量下载 爬虫

复制代码 代码如下:

#coding=gbk
from xml.dom import minidom,Node
import urllib2,re,os
def readsrc(src):
    try:
        url = urllib2.urlopen(src)
        content = url.read()#.decode('utf-8')
        return content
    except:
        print 'error'
        return None
def pictype(content):
    '''
    通过抓取网站导航栏,获得网站的图片类型
    返回列表,每个列表元素为一个字典,addr代表图片类型对于的链接,name代表图片类型的名称
    错误会返回None
    '''
    p = re.compile(r'
    (.*)
',re.S)
    r=p.search(content)
    if r:
        content=r.group()
    else:
        print None
    p = re.compile(r'
  • \s*.*?)">(?P.*?)\s*\s*
  • ')

        l = [i.groupdict() for i in p.finditer(content)]
        l=l[1:]
        if len(l):return l
        else:return None
    def pageinfo(src):
        '''
        获取一个页面的详细信息
        返回对于的字典列表
        name:图片的名字
        cutaddr:缩小的浏览图
        picaddr:实际图片的地址
        '''
        d=os.path.split(src)[0]
        try:
            url = urllib2.urlopen(src)
            content = url.read()#.decode('utf-8')
        except:
            print 'error'
            return None
        #find all the pictures info in a page
        p = re.compile(r'

    (.*?)',re.S)
        r = p.findall(content)
        if not r: return None
        r = r[1]
        p = re.compile(r'
  • 多线程爬虫批量下载pcgame图片url 保存为xml的实现代码.*?)" * */>.*?
  • ')
        l = [ i.groupdict() for i in p.finditer(r)]
        for i in l:
            i['picaddr']=d+'/'+i['picaddr']
        if len(l): return l
        else: return None

    def nextpageaddr(src):
        '''
        从页面的html源码中获取下一个页面地址的名称,最后一页返回None
        '''
        content=readsrc(src)
        p = re.compile(r'')
        r = p.search(content)
        if r:
            return os.path.dirname(src)+"/"+r.group(1)
        else:
            return None
    def picinfoaddr(src):
        '''
        参数相册图集的html代码
        返回全部图片的相对地址
        '''
        content=readsrc(src)
        p = re.compile(r'

    .*?.*?
    ',re.S)
        r = p.search(content)
        if r:
            return os.path.dirname(src)+"/"+r.group(1)
        else:
            return None
    def parseinfo(content):
        '''
        读取全部图片html代码,获得一个相册的详细信息
        kw:关键字
        title:标题
        type:类型
        pic:各个图片的地址列表,末尾加上_220x165,_medium,_small 可以得到不同大小的图片
        '''
        info={}
        temp=str()

        #title
        temp=''
        r=re.search('

    (.*?)

    ',content)#get the pic title
        if r:
            temp = r.group(1)
        info['title']=temp

        #keyword
        temp=''
        r=re.search('',content)
        if r:
            temp = r.group(1)
        info['kw']=temp

        #type
        r=re.findall('(.*?).*?>',content)
        if r:
            info['type']=':'.join(r)
        else:
            info['type']=''
        r=re.search('

      (.*?)
    ',content,re.S)
        if not r:return None
        content=r.group(1)#filter content
    #    print content
        r=re.findall('',content)

        for index,i in enumerate(r):
            r[index]=i[0:i.rfind('_')]
    #        print r[index]
        info['pic']=r
        return info
    import threading
    class mthread(threading.Thread):
        def __init__(self,tp,addr,lock):
            threading.Thread.__init__(self)
    #        self.doc = minidom.Document()
            self.doc=minidom.Document()
            self.tp=tp
            self.lock=lock
            self.addr=addr
            self.thread_stop=False
            self.picdoc=None
        def run(self):
            self.picdoc = self.doc.createElement('urlclass')
    #        print self.tp
            self.picdoc.setAttribute('type',self.tp)
    #        self.doc.appendChild(self.picdoc)
            m=pageinfo(self.addr)
            while self.addr:
                for i in m:
    #                print i['picaddr']
                    picaddr=picinfoaddr(i['picaddr'])
    #                print picaddr
                    info=parseinfo(readsrc(picaddr))
                    name=info['title']


                    picture=doc.createElement('picture')

                    title = doc.createElement('title')
                    title.appendChild(doc.createTextNode(info['title']))
                    picture.appendChild(title)

                    keyword = doc.createElement('keywords')
                    keyword.appendChild(doc.createTextNode(info['kw']))
                    picture.appendChild(keyword)

                    tp = doc.createElement('pictype')
                    tp.appendChild(doc.createTextNode(info['type']))
                    picture.appendChild(tp)

                    cuturl = doc.createElement('piccut')
                    cuturl.appendChild(doc.createTextNode(i['cutaddr']))
                    picture.appendChild(cuturl)

                    urls = doc.createElement('urls')
                    self.lock.acquire()
                    print 'downloading ',name
                    self.lock.release()
                    for picurl in info['pic']:
                        singleurl=doc.createElement('url')
                        singleurl.appendChild(doc.createTextNode(picurl+'.jpg'))
                        urls.appendChild(singleurl)

                    picture.appendChild(urls)
                    self.picdoc.appendChild(picture)
                m=pageinfo(self.addr)
                self.addr=nextpageaddr(self.addr)
    #        f = open('c:\\'+self.tp+'.xml','w')
    #        f.write(doc.toprettyxml(indent = ''))
    #        f.close()
        def stop(self):
            self.thread_stop=True


    path='C:\\pict\\'#下载的路径
    #import sys
    sys.exit(12)
    content=readsrc('http://photos.pcgames.com.cn/cate/3/1.html')
    r=pictype(content)
    lt=[]
    doc = minidom.Document()
    root=doc.createElement('url_resource')
    root.setAttribute('type','url')
    root.setAttribute('urltype','image')
    root.setAttribute('imgfmt','jpg')
    doc.appendChild(root)
    lock=threading.RLock()
    for iaddr in r:
        print 'downloading type: ',iaddr['name']
        addr=iaddr['addr']
        th=mthread(iaddr['name'],addr,lock)
        lt.append(th)
        th.start()
    for t in lt:
        t.join()
        root.appendChild(t.picdoc)

    print 'write'
    f = open('c:\\'+'urls'+'.xml','w')
    f.write(doc.toprettyxml(indent = ''))
    f.close()
    print doc.toprettyxml()
    print 'end'

    Erklärung dieser Website
    Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

    Heiße KI -Werkzeuge

    Undresser.AI Undress

    Undresser.AI Undress

    KI-gestützte App zum Erstellen realistischer Aktfotos

    AI Clothes Remover

    AI Clothes Remover

    Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

    Undress AI Tool

    Undress AI Tool

    Ausziehbilder kostenlos

    Clothoff.io

    Clothoff.io

    KI-Kleiderentferner

    AI Hentai Generator

    AI Hentai Generator

    Erstellen Sie kostenlos Ai Hentai.

    Heißer Artikel

    R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
    2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
    Repo: Wie man Teamkollegen wiederbelebt
    4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
    Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
    3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

    Heiße Werkzeuge

    Notepad++7.3.1

    Notepad++7.3.1

    Einfach zu bedienender und kostenloser Code-Editor

    SublimeText3 chinesische Version

    SublimeText3 chinesische Version

    Chinesische Version, sehr einfach zu bedienen

    Senden Sie Studio 13.0.1

    Senden Sie Studio 13.0.1

    Leistungsstarke integrierte PHP-Entwicklungsumgebung

    Dreamweaver CS6

    Dreamweaver CS6

    Visuelle Webentwicklungstools

    SublimeText3 Mac-Version

    SublimeText3 Mac-Version

    Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

    C++-Funktionsausnahmen und Multithreading: Fehlerbehandlung in gleichzeitigen Umgebungen C++-Funktionsausnahmen und Multithreading: Fehlerbehandlung in gleichzeitigen Umgebungen May 04, 2024 pm 04:42 PM

    Die Behandlung von Funktionsausnahmen in C++ ist in Multithread-Umgebungen besonders wichtig, um Thread-Sicherheit und Datenintegrität sicherzustellen. Mit der try-catch-Anweisung können Sie bestimmte Arten von Ausnahmen abfangen und behandeln, wenn sie auftreten, um Programmabstürze oder Datenbeschädigungen zu verhindern.

    Verwendung des JUnit-Unit-Test-Frameworks in einer Multithread-Umgebung Verwendung des JUnit-Unit-Test-Frameworks in einer Multithread-Umgebung Apr 18, 2024 pm 03:12 PM

    Bei der Verwendung von JUnit in einer Multithread-Umgebung gibt es zwei gängige Ansätze: Single-Thread-Tests und Multi-Thread-Tests. Single-Thread-Tests werden im Hauptthread ausgeführt, um Parallelitätsprobleme zu vermeiden, während Multi-Thread-Tests in Arbeitsthreads ausgeführt werden und einen synchronisierten Testansatz erfordern, um sicherzustellen, dass gemeinsam genutzte Ressourcen nicht gestört werden. Zu den häufigen Anwendungsfällen gehört das Testen multithreadsicherer Methoden, etwa die Verwendung von ConcurrentHashMap zum Speichern von Schlüssel-Wert-Paaren, und gleichzeitiger Threads zum Bearbeiten der Schlüssel-Wert-Paare und zum Überprüfen ihrer Richtigkeit, was die Anwendung von JUnit in einer Multithread-Umgebung widerspiegelt .

    Wie können Parallelität und Multithreading von Java-Funktionen die Leistung verbessern? Wie können Parallelität und Multithreading von Java-Funktionen die Leistung verbessern? Apr 26, 2024 pm 04:15 PM

    Parallelitäts- und Multithreading-Techniken mithilfe von Java-Funktionen können die Anwendungsleistung verbessern, einschließlich der folgenden Schritte: Parallelitäts- und Multithreading-Konzepte verstehen. Nutzen Sie die Parallelitäts- und Multithreading-Bibliotheken von Java wie ExecutorService und Callable. Üben Sie Fälle wie die Multithread-Matrixmultiplikation, um die Ausführungszeit erheblich zu verkürzen. Genießen Sie die Vorteile einer erhöhten Reaktionsgeschwindigkeit der Anwendung und einer optimierten Verarbeitungseffizienz durch Parallelität und Multithreading.

    Wie verhalten sich PHP-Funktionen in einer Multithread-Umgebung? Wie verhalten sich PHP-Funktionen in einer Multithread-Umgebung? Apr 16, 2024 am 10:48 AM

    In einer Multithread-Umgebung hängt das Verhalten von PHP-Funktionen von ihrem Typ ab: Normale Funktionen: Thread-sicher, können gleichzeitig ausgeführt werden. Funktionen, die globale Variablen ändern: unsicher, müssen einen Synchronisationsmechanismus verwenden. Dateioperationsfunktion: unsicher, zur Koordinierung des Zugriffs muss ein Synchronisierungsmechanismus verwendet werden. Datenbankbetriebsfunktion: Unsicher, Datenbanksystemmechanismus muss verwendet werden, um Konflikte zu verhindern.

    Wie implementiert man Multithreading in PHP? Wie implementiert man Multithreading in PHP? May 06, 2024 pm 09:54 PM

    PHP-Multithreading bezieht sich auf die gleichzeitige Ausführung mehrerer Aufgaben in einem Prozess, was durch die Erstellung unabhängig laufender Threads erreicht wird. Sie können die Pthreads-Erweiterung in PHP verwenden, um Multithreading-Verhalten zu simulieren. Nach der Installation können Sie die Thread-Klasse zum Erstellen und Starten von Threads verwenden. Wenn beispielsweise eine große Datenmenge verarbeitet wird, können die Daten in mehrere Blöcke unterteilt und eine entsprechende Anzahl von Threads erstellt werden, um sie gleichzeitig zu verarbeiten, um die Effizienz zu verbessern.

    Wie gehe ich mit gemeinsam genutzten Ressourcen beim Multithreading in C++ um? Wie gehe ich mit gemeinsam genutzten Ressourcen beim Multithreading in C++ um? Jun 03, 2024 am 10:28 AM

    Mutexe werden in C++ verwendet, um gemeinsam genutzte Multithread-Ressourcen zu verarbeiten: Erstellen Sie Mutexe über std::mutex. Verwenden Sie mtx.lock(), um einen Mutex zu erhalten und exklusiven Zugriff auf gemeinsam genutzte Ressourcen bereitzustellen. Verwenden Sie mtx.unlock(), um den Mutex freizugeben.

    Herausforderungen und Gegenmaßnahmen der C++-Speicherverwaltung in Multithread-Umgebungen? Herausforderungen und Gegenmaßnahmen der C++-Speicherverwaltung in Multithread-Umgebungen? Jun 05, 2024 pm 01:08 PM

    In einer Multithread-Umgebung steht die C++-Speicherverwaltung vor den folgenden Herausforderungen: Datenrennen, Deadlocks und Speicherlecks. Zu den Gegenmaßnahmen gehören: 1. Verwendung von Synchronisationsmechanismen, wie Mutexe und atomare Variablen; 3. Verwendung von intelligenten Zeigern; 4. Implementierung von Garbage Collection;

    Herausforderungen und Strategien zum Testen von Multithread-Programmen in C++ Herausforderungen und Strategien zum Testen von Multithread-Programmen in C++ May 31, 2024 pm 06:34 PM

    Multithread-Programmtests stehen vor Herausforderungen wie Nichtwiederholbarkeit, Parallelitätsfehlern, Deadlocks und mangelnder Sichtbarkeit. Zu den Strategien gehören: Unit-Tests: Schreiben Sie Unit-Tests für jeden Thread, um das Thread-Verhalten zu überprüfen. Multithread-Simulation: Verwenden Sie ein Simulations-Framework, um Ihr Programm mit Kontrolle über die Thread-Planung zu testen. Erkennung von Datenrennen: Verwenden Sie Tools, um potenzielle Datenrennen zu finden, z. B. Valgrind. Debuggen: Verwenden Sie einen Debugger (z. B. GDB), um den Status des Laufzeitprogramms zu untersuchen und die Quelle des Datenwettlaufs zu finden.

    See all articles