communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > développement back-end > Tutoriel Python > python采集百度百科的方法

python采集百度百科的方法

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2016-06-10 15:10:48

original

1258 Les gens l'ont consulté

本文实例讲述了python采集百度百科的方法。分享给大家供大家参考。具体如下：

#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8 
#Filename:get_baike.py
import urllib2,re
import sys
def getHtml(url,time=10):
 response = urllib2.urlopen(url,timeout=time)
 html = response.read()
 response.close()
 return html
def clearBlank(html):
 if len(html) == 0 : return ''
 html = re.sub('\r|\n|\t','',html)
 while html.find(" ")!=-1 or html.find(' ')!=-1 :
  html = html.replace(' ',' ').replace(' ',' ')
 return html
if __name__ == '__main__':
  html = getHtml('http://baike.baidu.com/view/4617031.htm',10)
  html = html.decode('gb2312','replace').encode('utf-8') #转码
  title_reg = r'<h1 class="title" id="[\d]+">(.*&#63;)</h1>'
  content_reg = r'<div class="card-summary-content">(.*&#63;)</p>'
  title = re.compile(title_reg).findall(html)
  content = re.compile(content_reg).findall(html)
  title[0] = re.sub(r'<[^>]*&#63;>', '', title[0])
  content[0] = re.sub(r'<[^>]*&#63;>', '', content[0])
  print title[0]
  print '#######################'
  print content[0]

Copier après la connexion

希望本文所述对大家的Python程序设计有所帮助。

Étiquettes associées：

python Encyclopédie Baidu 采集

Article précédent：Python实现处理管道的方法 Article suivant：django通过ajax发起请求返回JSON格式数据的方法

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Qu'est-ce qu'une NullPointerException et comment y remédier ?

2024-10-22 09:46:29
De novice à codeur : votre voyage commence par les principes fondamentaux du C

2024-10-13 13:53:41
Débloquer le développement Web avec PHP : guide du débutant

2024-10-12 12:15:51
Démystifier C : un chemin clair et simple pour les nouveaux programmeurs

2024-10-11 22:47:31
Libérez votre potentiel de codage : programmation C pour les débutants absolus

2024-10-11 19:36:51
Libérez votre programmeur intérieur : C pour les débutants absolus

2024-10-11 15:50:41
Automatisez votre vie avec C : scripts et outils pour les débutants

2024-10-11 15:07:41
PHP Made Easy : vos premiers pas dans le développement Web

2024-10-11 14:21:21
Construisez n'importe quoi avec Python : un guide du débutant pour libérer votre créativité

2024-10-11 12:59:11
La clé du codage : libérer la puissance de Python pour les débutants

2024-10-11 12:17:31

Derniers numéros

python3.x - Java appelle python, le code python s'arrête automatiquement et la raison est introuvable

Depuis 1970-01-01 08:00:00

0

0

0

python - Existe-t-il des forums ou des livres pertinents sur le développement Web Python?

Depuis 1970-01-01 08:00:00

0

0

0

python - Rapport d'erreurs Ubuntu16.04 LXML

Depuis 1970-01-01 08:00:00

0

0

0

"Impossible d'installer mysql-python, erreur : mysql_config introuvable"

Depuis 1970-01-01 08:00:00

0

0

0

erreur du robot d'exploration python scrapy

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal