Pratique du robot d'exploration multithread Python_Exemples d'exploration d'histoires embarrassantes d'Encyclopedia_python

韦小宝
Libérer: 2017-12-16 11:16:59
original
1943 Les gens l'ont consulté

L'éditeur ci-dessous partagera avec vous un article sur PythonMulti-threadingPratique du Crawler_un exemple d'exploration de choses embarrassantes de l'Encyclopédie Il a une bonne valeur de référence et je l'espère. sera utile à tout le monde. Amis intéressés par Python, veuillez suivre l'éditeur pour y jeter un œil

Robot multi-thread : c'est-à-dire que certains segments de programme du programme sont exécutés en parallèle,

Configurer correctement plusieurs -threading, vous pouvez rendre le robot d'exploration plus efficace

Encyclopédie des plaintes : robot d'exploration ordinaire et robot d'exploration multithread

L'analyse du lien URL montre :

https://www.qiushibaike.com/8hr/page/page/

Les robots multithread sont similaires au multithread de JAVA, entrez simplement le code


'''
#此处代码为普通爬虫
import urllib.request
import urllib.error
import re
headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
for i in range(1,2):
 url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
 pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
 pattern = &#39;<p class="content">.*?<span>(.*?)</span>(.*?)</p>&#39;
 datalist = re.compile(pattern,re.S).findall(pagedata)
 for j in range(0,len(datalist)):
  print("第"+str(i)+"页第"+str(j)+"个段子内容是:")
  print(datalist[j])
&#39;&#39;&#39;
&#39;&#39;&#39;
#此处为多线程介绍代码
import threading #导入多线程包
class A(threading.Thread): #创建一个多线程A
 def init(self):  #必须包含的两个方法之一:初始化线程
  threading.Thread.init(self)
 def run(self):   #必须包含的两个方法之一:线程运行方法
  for i in range(0,11):
   print("我是线程A")
class B(threading.Thread): #创建一个多线程A
 def init(self):  #必须包含的两个方法之一:初始化线程
  threading.Thread.init(self)
 def run(self):   #必须包含的两个方法之一:线程运行方法
  for i in range(0,11):
   print("我是线程B")
t1 = A() #线程实例化
t1.start() #线程运行
t2 = B()
t2.start()
&#39;&#39;&#39;

#此处为修改后的多线程爬虫
#使用多线程进行奇偶页的爬取
import urllib.request
import urllib.error
import re
import threading
headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36")
opener = urllib.request.build_opener()
opener.addheaders = [headers]
urllib.request.install_opener(opener)
class one(threading.Thread): #爬取奇数页内容
 def init(self):
  threading.Thread.init(self)
 def run(self):
  for i in range(1,12,2):
   url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
   pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
   pattern = &#39;<p class="content">.*?<span>(.*?)</span>(.*?)</p>&#39;
   datalist = re.compile(pattern,re.S).findall(pagedata)
   for j in range(0,len(datalist)):
    print("第"+str(i)+"页第"+str(j)+"段子内容为:")
    print(datalist[j])

class two(threading.Thread): #爬取奇数页内容
 def init(self):
  threading.Thread.init(self)
 def run(self):
  for i in range(2,12,2):
   url = "https://www.qiushibaike.com/8hr/page/"+str(i)+"/"
   pagedata = urllib.request.urlopen(url).read().decode("utf-8","ignore")
   pattern = &#39;<p class="content">.*?<span>(.*?)</span>(.*?)</p>&#39;
   datalist = re.compile(pattern,re.S).findall(pagedata)
   for j in range(0,len(datalist)):
    print("第"+str(i)+"页第"+str(j)+"段子内容为:")
    print(datalist[j])
t1 = one()
t2 = two()
t1.start()
t2.start()
Copier après la connexion


L'article ci-dessus sur la pratique du robot d'exploration multithread Python_Crawling des blagues embarrassantes sur l'encyclopédie est tout le contenu partagé par l'éditeur. J'espère que c'est possible. Pour vous donner une référence, j'espère aussi que tout le monde soutiendra le site Web PHP chinois.

Recommandations associées :

Exemples de méthodes de tri d'allocation courantes dans les structures de données et les algorithmes Python [Tri de bucket et base Sorting】_python

Comment définir la police et le format des cellules Excel à l'aide de xlwt en Python

Un exemple d'implémentation de la fonction de reconnaissance vocale Baidu en langage Python

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!