masyarakat

Belajar

Perpustakaan Alatan

Alat AI

Masa lapang

Melayu

Rumah > pembangunan bahagian belakang > Tutorial Python > python提取知乎当前最热的问答内容

python提取知乎当前最热的问答内容

大家讲道理

Lepaskan： 2016-11-09 11:29:25

asal

1160 orang telah melayarinya

#-*- coding: utf-8 -*-
import urllib.request
import re
from _io import open
def yunpan_search():
    url = "https://www.zhihu.com/explore"
    req = urllib.request.Request(url, headers = {
        &#39;Connection&#39;: &#39;Keep-Alive&#39;,
        &#39;Accept&#39;: &#39;text/html, application/xhtml+xml, */*&#39;,
       &#39;Accept-Language&#39;: &#39;en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3&#39;,
        &#39;User-Agent&#39;: &#39;Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0) like Gecko&#39;
})
    opener = urllib.request.urlopen(req)
    html = opener.read()
    html = html.decode(&#39;utf-8&#39;)
    rex = &#39;(?<=<textarea class="content hidden">\n).*?(?=<span class="answer-date-link-wrap">)&#39;
    m = re.findall(rex,html,re.S)
    f = open(&#39;/root/Desktop/zhihu.txt&#39;,&#39;w&#39;)
    for i in m:
        f.write(i)
        f.write(&#39;\n\n&#39;)
    f.close()
    print("抓取成功!")
    file = open(&#39;/root/Desktop/zhihu.txt&#39;,&#39;r+&#39;)
    fullfile = file.readlines()
    text = []
    p = re.compile(r&#39;\w*&#39;, re.L)
    pp = re.compile(r"(&;)*")
    for line in fullfile:
        lines = p.sub(&#39;&#39;,line)
        liness = pp.sub(&#39;&#39;,lines)
        text.append(liness)
    file.seek(0)
    file.truncate(0)
    file.writelines(text)
    file.close()
    print("处理成功！")
 
if __name__==&#39;__main__&#39;:
    yunpan_search()

Salin selepas log masuk

Label berkaitan：

代码片段，代码分享，PHP代码分享，Java代码分享 Ruby代码分享，Python代码分享，HTML代码分享，CSS代

Artikel sebelumnya：模拟登录封包python实现 Artikel seterusnya：python实现将文本转换成语音的方法

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Artikel terbaru oleh pengarang

.Net Core分布式邮件系统

1970-01-01 08:00:00
微信第三方登录demo

2023-03-07 22:34:01
BOM、DOM与JS中的事件

1970-01-01 08:00:00
.net core 根据数据库生成实体类

1970-01-01 08:00:00
cordova 基本命令

1970-01-01 08:00:00
基于binlog来分析mysql的行记录修改情况

1970-01-01 08:00:00
php简易爬虫

2023-03-07 22:32:01
2017招聘季：PHP面试题超强总结！

1970-01-01 08:00:00
python os模块使用详解

1970-01-01 08:00:00
django开发者模式中的autoreload是怎样实现的

1970-01-01 08:00:00

Isu terkini

javascript - Sila beritahu saya tentang masalah menukar fungsi panggil balik jq untuk menjanjikan pelaksanaan

daripada 1970-01-01 08:00:00

0

0

0

javascript - Kekeliruan tentang menghantar parameter dalam tindak balas

daripada 1970-01-01 08:00:00

0

0

0

javascript - gambar rajah tindanan atribut js

daripada 1970-01-01 08:00:00

0

0

0

javascript - aplikasi halaman tunggal angularjs Bagaimana untuk menyelesaikan masalah tidak menatal ke bahagian atas halaman selepas halaman menatal ke bawah dan navigasi melompat ke halaman baharu?

daripada 1970-01-01 08:00:00

0

0

0

javascript - Apabila membina projek dengan vue-cli, anda perlu memperkenalkan fail js dan CSS statik tempatan Bagaimana untuk membungkusnya?

daripada 1970-01-01 08:00:00

0

0

0

Topik-topik yang berkaitan

Lagi>

Cadangan popular

Tutorial Popular

Lagi>

Tutorial berkaitan

Cadangan popular

Kursus terkini

Muat turun terkini

Lagi>

kesan web

Kod sumber laman web

Bahan laman web

Templat hujung hadapan