Maison > développement back-end > Tutoriel Python > Python crée des choses embarrassantes encyclopédiques

Python crée des choses embarrassantes encyclopédiques

高洛峰
Libérer: 2017-02-24 16:07:09
original
1384 Les gens l'ont consulté

Je me suis réveillé le matin sans rien faire, et de nulle part, une blague de l'Encyclopédie des choses embarrassantes est apparue. Puis j'ai pensé que puisque vous me l'aviez envoyée, j'écrirais un robot pour explorer votre site Web. , juste pour mettre en pratique mes compétences, et deuxièmement, c'est un peu amusant.

En fait, j'ai été exposé au contenu de la base de données au cours des deux derniers jours. Les données explorées peuvent être enregistrées dans la base de données pour une utilisation ultérieure. D'accord, ne disons pas de bêtises. Jetons un coup d'œil aux résultats des données analysées par le programme. Il y a 30 pages de contenu dans l'encyclopédie, mais une erreur de connexion s'est produite lorsque j'ai réduit le numéro de page à 20 pages, le programme peut s'exécuter. normalement, je ne connais pas la raison. Si quelqu'un qui est désireux de savoir peut me le dire, je lui en serai reconnaissant.

Le programme est très simple, téléchargez simplement le code sourcePython 制作糗事百科爬虫

S'il y a des parties que vous ne comprenez pas, vous peut se référer à mes trois meilleurs articles.

# coding=utf8

import re
import requests
from lxml import etree
from multiprocessing.dummy import Pool as ThreadPool
import sys

reload(sys)
sys.setdefaultencoding('utf-8')


def getnewpage(url, total):
 nowpage = int(re.search('(\d+)', url, re.S).group(1))
 urls = []

 for i in range(nowpage, total + 1):
  link = re.sub('(\d+)', '%s' % i, url, re.S)
  urls.append(link)

 return urls


def spider(url):
 html = requests.get(url)
 selector = etree.HTML(html.text)

 author = selector.xpath('//*[@id="content-left"]/p/p[1]/a[2]/@title')
 content = selector.xpath('//*[@id="content-left"]/p/p[2]/text()')
 vote = selector.xpath('//*[@id="content-left"]/p/p[3]/span/i/text()')

 length = len(author)
 for i in range(0, length):
  f.writelines('作者 : ' + author[i] + '\n')
  f.writelines('内容 :' + str(content[i]).replace('\n','') + '\n')
  f.writelines('支持 : ' + vote[i] + '\n\n')


if __name__ == '__main__':

 f = open('info.txt', 'a')
 url = 'http://www.qiushibaike.com/text/page/1/'
 urls = getnewpage(url, 20)

 pool = ThreadPool(4)
 pool.map(spider,urls)
 f.close()
Copier après la connexion

Pour plus d'articles sur la création par Python de robots d'exploration d'encyclopédies embarrassants, veuillez faire attention au site Web PHP chinois !

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal