communauté

Apprendre

Bibliothèque d'outils

Outils d'IA

Loisirs

Français

Maison > développement back-end > Tutoriel Python > python提取知乎当前最热的问答内容

python提取知乎当前最热的问答内容

大家讲道理

Libérer： 2016-11-09 11:29:25

original

1146 Les gens l'ont consulté

#-*- coding: utf-8 -*-
import urllib.request
import re
from _io import open
def yunpan_search():
    url = "https://www.zhihu.com/explore"
    req = urllib.request.Request(url, headers = {
        &#39;Connection&#39;: &#39;Keep-Alive&#39;,
        &#39;Accept&#39;: &#39;text/html, application/xhtml+xml, */*&#39;,
       &#39;Accept-Language&#39;: &#39;en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3&#39;,
        &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko&#39;
})
    opener = urllib.request.urlopen(req)
    html = opener.read()
    html = html.decode(&#39;utf-8&#39;)
    rex = &#39;(?<=<textarea class="content hidden">\n).*?(?=<span class="answer-date-link-wrap">)&#39;
    m = re.findall(rex,html,re.S)
    f = open(&#39;/root/Desktop/zhihu.txt&#39;,&#39;w&#39;)
    for i in m:
        f.write(i)
        f.write(&#39;\n\n&#39;)
    f.close()
    print("抓取成功!")
    file = open(&#39;/root/Desktop/zhihu.txt&#39;,&#39;r+&#39;)
    fullfile = file.readlines()
    text = []
    p = re.compile(r&#39;\w*&#39;, re.L)
    pp = re.compile(r"(&;)*")
    for line in fullfile:
        lines = p.sub(&#39;&#39;,line)
        liness = pp.sub(&#39;&#39;,lines)
        text.append(liness)
    file.seek(0)
    file.truncate(0)
    file.writelines(text)
    file.close()
    print("处理成功！")
 
if __name__==&#39;__main__&#39;:
    yunpan_search()

Copier après la connexion

Étiquettes associées：

代码片段，代码分享，PHP代码分享，Java代码分享 Ruby代码分享，Python代码分享，HTML代码分享，CSS代

Article précédent：模拟登录封包python实现 Article suivant：python实现将文本转换成语音的方法

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Derniers articles par auteur

Système de messagerie distribué .Net Core

1970-01-01 08:00:00
Démo de connexion tierce à WeChat

2023-03-07 22:34:01
Événements dans BOM, DOM et JS

1970-01-01 08:00:00
.net core génère des classes d'entités basées sur la base de données

1970-01-01 08:00:00
commandes de base de Cordova

1970-01-01 08:00:00
Analyser les modifications des enregistrements de lignes MySQL en fonction du binlog

1970-01-01 08:00:00
robot d'exploration simple php

2023-03-07 22:32:01
Saison de recrutement 2017 : Super résumé des questions d'entretien PHP !

1970-01-01 08:00:00
Explication détaillée de l'utilisation du module python os

1970-01-01 08:00:00
Comment le rechargement automatique est-il implémenté en mode développeur Django ?

1970-01-01 08:00:00

Derniers numéros

javascript - Le code pour modifier l'image de la boîte dans la liste déroulante.

Depuis 1970-01-01 08:00:00

0

0

0

Comment ionic2 utilise-t-il les styles d'iOS sur la plateforme Android

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Existe-t-il un excellent outil de point d'arrêt sur NPM?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment Webpack bloque-t-il globalement la valeur de hachage de cette build pour une utilisation par le code JS ?

Depuis 1970-01-01 08:00:00

0

0

0

javascript - Comment jQuery implémente-t-il le préchargement des effets sonores sur les pages mobiles?

Depuis 1970-01-01 08:00:00

0

0

0

Rubriques connexes

Plus>

Recommandations populaires

Tutoriels populaires

Plus>

Tutoriels associés

Recommandations populaires

Derniers cours

Derniers téléchargements

Plus>

effets Web

Code source du site Web

Matériel du site Web

Modèle frontal