目錄
回复内容:
(.*)
首頁 後端開發 php教程 爬虫如何获得biilbili播放数?

爬虫如何获得biilbili播放数?

Jun 17, 2016 am 08:32 AM
count gt lt span title

  <i id="dianji" title="播放"></i><i id="dm_count" title="弹幕"></i><i id="stow_count" title="收藏"></i><i id="pt"><span class="v_ctimes" title="硬币数量"></span></i>
登入後複製

回复内容:

用av2047063举例,访问下面的网址:【网址已隐去】
@妹空酱 提醒我才想起来。。。。
先去自己申请一个appkey。。。在这里:
bilibili - 提示
然后就可以对bilibiliapi为所欲为了。。。。
B站第三方客户端就是这么开发出来的。。。
爬虫如何获得biilbili播放数?
可以看到最后两个参数id=av号&page=分p
play后面的18253即为播放数。

==============================
b站有公开api啊。。。。。。。那么麻烦干嘛。。。 答主的第一次就就交在这里了,,,
———————————————————————————————————————
前不久学习了python,正好复习一下
代码如下:
import re,urllib
page=urllib.urlopen('m.acg.tv/video/av204604')
HTML=page.read()
re_times=r'
  • (.*)
  • '
    result = re.findall(re_times,HTML)
    re_title=r'

    (.*)

    '
    title=re.findall(re_title,HTML)
    print title[0],'的播放次数为',result[0]

    下面以av2046040为例:bilibili.com/video/av20
    可以看到
    爬虫如何获得biilbili播放数?使用火狐查看选中部分源代码,如下
    爬虫如何获得biilbili播放数?但是我通过python的urllib模块并没有获取到页面内容:
    page=urllib.urlopen('http://www.bilibili.com/video/av2046040/')
    爬虫如何获得biilbili播放数?于是我转换思路,貌似B站的手机版网页可以,
    然后使用火狐的User-Agent Overrider修改浏览器UA为Android FireFox/29
    爬虫如何获得biilbili播放数?既可以获得如下界面:
    爬虫如何获得biilbili播放数?获取到页面实际地址后,就可以再次使用火狐查看源代码
    爬虫如何获得biilbili播放数?既可以写出正则表达式:
    re_times=r'
  • (.*)
  • '
    然后正则匹配就好了。
    <span class="c"># encoding=utf8</span>
    <span class="c"># author:shell-von</span>
    
    <span class="kn">import</span> <span class="nn">requests</span>
    <span class="kn">import</span> <span class="nn">re</span>
    <span class="n">aid</span> <span class="o">=</span> <span class="s">'3210612'</span>
    <span class="n">api_key</span> <span class="o">=</span> <span class="s">"http://interface.bilibili.com/count?key=27f582250563d5d6b11d6833&aid=</span><span class="si">%s</span><span class="s">"</span>
    <span class="n">data</span> <span class="o">=</span> <span class="n">requests</span><span class="o">.</span><span class="n">get</span><span class="p">(</span><span class="n">api_key</span> <span class="o">%</span> <span class="n">aid</span><span class="p">)</span><span class="o">.</span><span class="n">content</span>
    <span class="n">regex</span> <span class="o">=</span> <span class="s">r"\('(?:.|#)([\w_]+)'\)\.html\('?(\d+)'?\)"</span>
    <span class="k">print</span> <span class="nb">dict</span><span class="p">(</span><span class="n">re</span><span class="o">.</span><span class="n">findall</span><span class="p">(</span><span class="n">regex</span><span class="p">,</span> <span class="n">data</span><span class="p">))</span>
    
    登入後複製
    以前写过一个。。。。
    爬虫如何获得biilbili播放数?haogefeifei/get_bilibili_anime · GitHub 这是MATLAB的抓取,其中api可以利用Chrome的开发者工具获得:
    <span class="n">aid</span> <span class="p">=</span> <span class="mi">3295561</span><span class="p">;</span>
    <span class="n">api</span> <span class="p">=</span> <span class="s">'http://interface.bilibili.com/count?key=b9415053057bb00966665eaa'</span><span class="p">;</span>
    <span class="n">data</span> <span class="p">=</span> <span class="n">regexp</span><span class="p">(</span><span class="n">webread</span><span class="p">(</span><span class="n">api</span><span class="p">,</span><span class="s">'aid'</span><span class="p">,</span><span class="n">aid</span><span class="p">),</span><span class="s">'#(\w)+\D*(\d)+'</span><span class="p">,</span><span class="s">'tokens'</span><span class="p">);</span>
    <span class="n">data</span> <span class="p">=</span> <span class="p">[</span><span class="n">data</span><span class="p">{:}]</span>
    
    登入後複製
    说下大概的思路。
    0、打开特定的av页面,通过这条语句来找到CID和AID。注意:ctrl + u中能看到的源代码就是能匹配的源代码。
    1、发送请求到interface.bilibili.com/player?id=cid:(匹配的CID,要前面的冒号)&aid=(匹配的AID)
    2、从获取的xml文件中找到,就是你要的答案了。

    =====================================================

    实际上,我们ctrl + u看到的页面是网站发给我们的其中一个包而已,而最终的结果页面是网站发给我们的多个包组合的结果。
    有时候,网站会将数据封装在json或者xml中,然后通过多个请求获取数据,最后在本地用js来进行最后的构建。
    因此,页面上看到的内容是最后的结果,如果你要判断这个结果来自于源页面还是json还是xml,就需要通过开发者工具抓抓包,然后自己分析。

    总之,逻辑就是:
    0、这个数据哪来的? —— 通过抓包分析
    1、模拟获取这个数据的过程。 —— 直接访问该数据的来源url

    当然还要注意你要传的参数。这个参数从哪些地方获取也需要自己分析。

    ====================================================

    还是举个例子吧。

    注意:B站发回的数据是gzip,然而urllib2的urlopen不会自动解压,需要手动处理。
    可以参考这个回答:
    Does python urllib2 automatically uncompress gzip data fetched from webpage?

    随便在首页找了个页面,地址如下:
    【爱深黑切】路人女主的玩坏方法~第一弹

    import urllib2
    import re
    from StringIO import StringIO
    import gzip
    
    def find_cid_aid(html):
        target = re.compile('EmbedPlayer(?P<args>.*?)</script>',re.DOTALL)
        cidaid = target.search(html)
        cidaid = html[cidaid.start('args'):cidaid.end('args')]
        cid = cidaid.find('cid=')
        aid = cidaid.find('&aid=')
        index = aid
        while cidaid[index] != '"':
            index += 1
        return (cidaid[cid + 4:aid],cidaid[aid + 5:index])
    
    def find_how_many(cid_aid):
        target = re.compile(r'<click>(?P<result>.*?)</click>',re.DOTALL)
        cid = cid_aid[0]
        aid = cid_aid[1]
        addr = r'http://interface.bilibili.com/player?id=cid:' + cid + '&aid=' + aid
        f = urllib2.urlopen(addr)
        res = f.read()
        target = target.search(res)
        return res[target.start('result'):target.end('result')]
    
    headers = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', \
               'Accept-Language':'zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3', \
               'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:28.0) Gecko/20100101 Firefox/28.0',\
               'Host':'www.bilibili.com', \
               'Accept-Encoding':'gzip, deflate', \
               'Cache-Control':'max-age=0', \
               'Connection':'keep-alive'}
    
    request = urllib2.Request(r'http://www.bilibili.com/video/av2046145/', headers=headers)
    
    html = urllib2.urlopen(request)
    
    if html.info().get('Content-Encoding') == 'gzip':
        buf = StringIO(html.read())
        f = gzip.GzipFile(fileobj=buf)
        html = f.read()
    
    cid_aid = find_cid_aid(html)
    print find_how_many(cid_aid)
    
    登入後複製
    获取cid aid请求http://interface.bilibili.com/player
    什么东西抓抓包就知道了

    比如说如图一样的懒人眼镜,你懂的~~这里的源码直接可以直接用正则匹配到cid和aid,
    cid=1511100&aid=1044050

    然后请求
    interface.bilibili.com/

    然后被包围的就是播放数了

    <click>4611</click>
    
    登入後複製
    你在电脑屏幕上面看到的一切都是数据来着啊。B站的网页也只不过是一堆代码而已。稍微获取一下源代码,解gzip压缩,转换一下编码,正则表达式搜索一下,就能出来了,很简单的。
    本網站聲明
    本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

    熱AI工具

    Undresser.AI Undress

    Undresser.AI Undress

    人工智慧驅動的應用程序,用於創建逼真的裸體照片

    AI Clothes Remover

    AI Clothes Remover

    用於從照片中去除衣服的線上人工智慧工具。

    Undress AI Tool

    Undress AI Tool

    免費脫衣圖片

    Clothoff.io

    Clothoff.io

    AI脫衣器

    AI Hentai Generator

    AI Hentai Generator

    免費產生 AI 無盡。

    熱門文章

    R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
    1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.最佳圖形設置
    1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.如果您聽不到任何人,如何修復音頻
    1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.聊天命令以及如何使用它們
    1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

    熱工具

    記事本++7.3.1

    記事本++7.3.1

    好用且免費的程式碼編輯器

    SublimeText3漢化版

    SublimeText3漢化版

    中文版,非常好用

    禪工作室 13.0.1

    禪工作室 13.0.1

    強大的PHP整合開發環境

    Dreamweaver CS6

    Dreamweaver CS6

    視覺化網頁開發工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神級程式碼編輯軟體(SublimeText3)

    華為GT3 Pro和GT4的差異是什麼? 華為GT3 Pro和GT4的差異是什麼? Dec 29, 2023 pm 02:27 PM

    許多用戶在選擇智慧型手錶的時候都會選擇的華為的品牌,其中華為GT3pro和GT4都是非常熱門的選擇,不少用戶都很好奇華為GT3pro和GT4有什麼區別,下面就給大家介紹一下二者。華為GT3pro和GT4有什麼差別一、外觀GT4:46mm和41mm,材質是玻璃鏡板+不鏽鋼機身+高分纖維後殼。 GT3pro:46.6mm和42.9mm,材質是藍寶石玻璃鏡+鈦金屬機身/陶瓷機身+陶瓷後殼二、健康GT4:採用最新的華為Truseen5.5+演算法,結果會更加的精準。 GT3pro:多了ECG心電圖和血管及安

    修復:截圖工具在 Windows 11 中不起作用 修復:截圖工具在 Windows 11 中不起作用 Aug 24, 2023 am 09:48 AM

    為什麼截圖工具在Windows11上不起作用了解問題的根本原因有助於找到正確的解決方案。以下是截圖工具可能無法正常工作的主要原因:對焦助手已開啟:這可以防止截圖工具開啟。應用程式損壞:如果截圖工具在啟動時崩潰,則可能已損壞。過時的圖形驅動程式:不相容的驅動程式可能會幹擾截圖工具。來自其他應用程式的干擾:其他正在運行的應用程式可能與截圖工具衝突。憑證已過期:升級過程中的錯誤可能會導致此issu簡單的解決方案這些適合大多數用戶,不需要任何特殊的技術知識。 1.更新視窗與Microsoft應用程式商店應用程

    counta和count的區別 counta和count的區別 Nov 20, 2023 am 10:01 AM

    Count函數用於計算指定範圍內數字的個數。它忽略文字、邏輯值和空值,但會將空白儲存格計算在內,Count函數只計算包含實際數字的儲存格數量。而CountA函數用於計算指定範圍內非空單元格的個數。它不僅計算包含實際數字的儲存格,還計算包含文字、邏輯值和公式等非空白儲存格的數量。

    如何修復無法連線到iPhone上的App Store錯誤 如何修復無法連線到iPhone上的App Store錯誤 Jul 29, 2023 am 08:22 AM

    第1部分:初始故障排除步驟檢查蘋果的系統狀態:在深入研究複雜的解決方案之前,讓我們先從基礎知識開始。問題可能不在於您的設備;蘋果的伺服器可能會關閉。造訪Apple的系統狀態頁面,查看AppStore是否正常運作。如果有問題,您所能做的就是等待Apple修復它。檢查您的網路連接:確保您擁有穩定的網路連接,因為「無法連接到AppStore」問題有時可歸因於連接不良。嘗試在Wi-Fi和行動數據之間切換或重置網路設定(「常規」>「重置」>「重置網路設定」>設定)。更新您的iOS版本:

    title是什麼意思 title是什麼意思 Aug 04, 2023 am 11:18 AM

    title是定義網頁標題的意思,位於標籤內,並且是在瀏覽器的標題欄中顯示的文本,title對於網頁的搜尋引擎優化和用戶體驗都非​​常重要。在編寫HTML網頁時,應該注意使用相關的關鍵字和吸引人的描述來定義title元素,以便吸引更多的使用者點擊和瀏覽。

    php提交表单通过后,弹出的对话框怎样在当前页弹出,该如何解决 php提交表单通过后,弹出的对话框怎样在当前页弹出,该如何解决 Jun 13, 2016 am 10:23 AM

    php提交表单通过后,弹出的对话框怎样在当前页弹出php提交表单通过后,弹出的对话框怎样在当前页弹出而不是在空白页弹出?想实现这样的效果:而不是空白页弹出:------解决方案--------------------如果你的验证用PHP在后端,那么就用Ajax;仅供参考:HTML code

    HTML中title的意思是什麼 HTML中title的意思是什麼 Mar 06, 2024 am 09:53 AM

    HTML中的title顯示的是網頁標題標籤,可以讓瀏覽者知道目前頁面的主要是說什麼的,所以每個網頁都應該有一個單獨的title。

    div與span的差別有哪些 div與span的差別有哪些 Nov 02, 2023 pm 02:29 PM

    差異有:1、div是一個區塊級元素,span是一個行內元素;2、div會自動佔據一行,span則不會自動換行;3、div用於包裹比較大的結構和佈局,span用於包裹文字或其他行內元素;4、div可以包含其他區塊級元素和行內元素,span可以包含其他行內元素。

    See all articles