84669 人學習
152542 人學習
20005 人學習
5487 人學習
7821 人學習
359900 人學習
3350 人學習
180660 人學習
48569 人學習
18603 人學習
40936 人學習
1549 人學習
1183 人學習
32909 人學習
我想爬取簡書在某一時段的帖子,例如 2013 年 4 月 13 — 2013 年 5 月 13
想嘗試的想法如下:
百度
利用百度的 site 語法
#限定日期
#觀察大約有 70 個貼文
#Google
google 的 site 語法
#觀察大約有 120 個貼文
#實作:用 Python 直接要求搜尋的結果,然後把得到的網址重新導向一下得到真正的簡書網址,然後對真正的網址進行請求
問題
用這種方法得到的結果是否可靠?請問有更可靠的方法嗎?
用 Google 還是用百度呢?
人生最曼妙的风景,竟是内心的淡定与从容!
為了全面,你可以把主流的搜尋引擎介面都拿來用,不一定要限制在某個搜尋引擎介面上。我們有隊友搜尋某些話題就是這麼幹的,因為有的網站站內沒提供滿足需求的搜尋方式,這個時候也只有借助搜尋引擎了。不過透過搜尋引擎搜尋的方式資訊可能不全面,robots協議規定了不能搜尋的,搜尋引擎不會收錄
為了全面,你可以把主流的搜尋引擎介面都拿來用,不一定要限制在某個搜尋引擎介面上。我們有隊友搜尋某些話題就是這麼幹的,因為有的網站站內沒提供滿足需求的搜尋方式,這個時候也只有借助搜尋引擎了。不過透過搜尋引擎搜尋的方式資訊可能不全面,robots協議規定了不能搜尋的,搜尋引擎不會收錄