Gemeinschaft

Lernen

Tools-Bibliothek

KI-Tools

Freizeit

Deutsch

Heim > Backend-Entwicklung > Python-Tutorial > Python extrahiert die beliebtesten Q&A-Inhalte zu Zhihu

Python extrahiert die beliebtesten Q&A-Inhalte zu Zhihu

大家讲道理

Freigeben： 2016-11-09 11:29:25

Original

1170 Leute haben es durchsucht

#-*- coding: utf-8 -*-
import urllib.request
import re
from _io import open
def yunpan_search():
    url = "https://www.zhihu.com/explore"
    req = urllib.request.Request(url, headers = {
        &#39;Connection&#39;: &#39;Keep-Alive&#39;,
        &#39;Accept&#39;: &#39;text/html, application/xhtml+xml, */*&#39;,
       &#39;Accept-Language&#39;: &#39;en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3&#39;,
        &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko&#39;
})
    opener = urllib.request.urlopen(req)
    html = opener.read()
    html = html.decode(&#39;utf-8&#39;)
    rex = &#39;(?<=<textarea class="content hidden">\n).*?(?=<span class="answer-date-link-wrap">)&#39;
    m = re.findall(rex,html,re.S)
    f = open(&#39;/root/Desktop/zhihu.txt&#39;,&#39;w&#39;)
    for i in m:
        f.write(i)
        f.write(&#39;\n\n&#39;)
    f.close()
    print("抓取成功!")
    file = open(&#39;/root/Desktop/zhihu.txt&#39;,&#39;r+&#39;)
    fullfile = file.readlines()
    text = []
    p = re.compile(r&#39;\w*&#39;, re.L)
    pp = re.compile(r"(&;)*")
    for line in fullfile:
        lines = p.sub(&#39;&#39;,line)
        liness = pp.sub(&#39;&#39;,lines)
        text.append(liness)
    file.seek(0)
    file.truncate(0)
    file.writelines(text)
    file.close()
    print("处理成功！")
 
if __name__==&#39;__main__&#39;:
    yunpan_search()

Nach dem Login kopieren

Verwandte Etiketten：

代码片段，代码分享，PHP代码分享，Java代码分享 Ruby代码分享，Python代码分享，HTML代码分享，CSS代

Vorheriger Artikel：Simulieren Sie die Python-Implementierung des Anmeldepakets Nächster Artikel：Python-Methode zum Konvertieren von Text in Sprache

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

.Net Core verteiltes Mailsystem

1970-01-01 08:00:00
WeChat-Anmeldedemo für Drittanbieter

2023-03-07 22:34:01
Ereignisse in BOM, DOM und JS

1970-01-01 08:00:00
.net Core generiert Entitätsklassen basierend auf der Datenbank

1970-01-01 08:00:00
Cordova-Grundbefehle

1970-01-01 08:00:00
Analysieren Sie Änderungen an MySQL-Zeilendatensätzen basierend auf Binlog

1970-01-01 08:00:00
PHP einfacher Crawler

2023-03-07 22:32:01
Rekrutierungssaison 2017: Super Zusammenfassung der PHP-Interviewfragen!

1970-01-01 08:00:00
Detaillierte Erläuterung der Verwendung des Python-Betriebssystemmoduls

1970-01-01 08:00:00
Wie wird Autoreload im Django-Entwicklermodus implementiert?

1970-01-01 08:00:00

Aktuelle Ausgaben

Wie öffnen, lesen und schreiben Sie Dateien in Python?

2025-03-19 14:31:30
Wie erstellen Sie einen benutzerdefinierten Iterator in Python?

2025-03-19 14:29:32
Wie installieren und verwalten Sie Pakete mit PIP?

2025-03-19 14:28:24
Erklären Sie den Zweck virtueller Umgebungen in Python.

2025-03-19 14:27:22
Was ist der Zweck von __name__ == '__main__'?

2025-03-19 14:25:22

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage