communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > développement back-end > Tutoriel Python > python正则匹配抓取豆瓣电影链接和评论代码分享

python正则匹配抓取豆瓣电影链接和评论代码分享

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Libérer： 2016-06-06 11:28:58

original

1189 Les gens l'ont consulté

代码如下:

import urllib.request
import re
import time

def movie(movieTag):

    tagUrl=urllib.request.urlopen(url)
    tagUrl_read = tagUrl.read().decode('utf-8')
    return tagUrl_read

def subject(tagUrl_read):

    '''
        这里还存在问题：
        ①这只针对单独的一页进行排序，而没有对全部页面的电影进行排序
        ②下次更新添加电影链接，考虑添加电影海报
        ③需要追加列表
        ④导入到本地txt或excel中
        ⑤在匹配电影名字时是否可以同时匹配链接与名字、评分、评论组成数组
        ⑥
    '''
#正则表达式匹配电影的名字（链接）、评分与评论
    nameURL = re.findall(r'(http://movie.douban.com/subject/[0-9.]+)\/"\s+title="(.+)"',tagUrl_read)
    scoreURL = re.findall(r'([0-9.]+)',tagUrl_read)
    evaluateURL = re.findall(r'\((\w+)人评价\)',tagUrl_read)
    movieLists = list(zip(nameURL,scoreURL,evaluateURL))
    newlist.extend(movieLists)
    return newlist

#用quote处理特殊（中文）字符
movie_type = urllib.request.quote(input('请输入电影类型(如剧情、喜剧、悬疑)：'))
page_end=int(input('请输入搜索结束时的页码：'))
num_end=page_end*20
num=0
page_num=1
newlist=[]
while num    url=r'http://movie.douban.com/tag/%s?start=%d'%(movie_type,num)
    movie_url = movie(url)
    subject_url=subject(movie_url)
    num=page_num*20
    page_num+=1
else:
    #使用sorted函数对列表进行排列，reverse参数为True时升序，默认或False时为降序， key=lambda还不是很明白这里的原理
    movieLIST = sorted(newlist, key=lambda movieList : movieList[1],reverse = True)
    for movie in movieLIST:
        print(movie)

time.sleep(3)

print('结束')

Étiquettes associées：

python正则匹配豆瓣电影

Article précédent：python模拟登录百度贴吧(百度贴吧登录)实例 Article suivant：python获取beautifulphoto随机某图片代码实例

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Qu'est-ce qu'une NullPointerException et comment y remédier ?

2024-10-22 09:46:29
De novice à codeur : votre voyage commence par les principes fondamentaux du C

2024-10-13 13:53:41
Débloquer le développement Web avec PHP : guide du débutant

2024-10-12 12:15:51
Démystifier C : un chemin clair et simple pour les nouveaux programmeurs

2024-10-11 22:47:31
Libérez votre potentiel de codage : programmation C pour les débutants absolus

2024-10-11 19:36:51
Libérez votre programmeur intérieur : C pour les débutants absolus

2024-10-11 15:50:41
Automatisez votre vie avec C : scripts et outils pour les débutants

2024-10-11 15:07:41
PHP Made Easy : vos premiers pas dans le développement Web

2024-10-11 14:21:21
Construisez n'importe quoi avec Python : un guide du débutant pour libérer votre créativité

2024-10-11 12:59:11
La clé du codage : libérer la puissance de Python pour les débutants

2024-10-11 12:17:31

Derniers numéros

javascript - Le code pour modifier l'image de la boîte dans la liste déroulante.

Depuis 1970-01-01 08:00:00

0

0

0

Comment ionic2 utilise-t-il les styles d'iOS sur la plateforme Android

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Existe-t-il un excellent outil de point d'arrêt sur NPM?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment Webpack bloque-t-il globalement la valeur de hachage de cette build pour une utilisation par le code JS ?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment jQuery implémente-t-il le préchargement des effets sonores sur les pages mobiles?

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal