首頁 > Java > java教程 > 零基礎寫Java知乎爬蟲之準備工作

零基礎寫Java知乎爬蟲之準備工作

黄舟
發布: 2016-12-24 11:07:30
原創
1836 人瀏覽過

開篇我們還是和原來一樣,講一講做爬蟲的思路以及需要準備的知識吧,高手們請直接忽略。

首先我們來縷一縷思緒,想想到底要做什麼,列個簡單的需求。

需求如下:

1.模擬訪問知乎官網(http://www.zhihu.com/)

2.下載指定的頁面內容,包括:今日最熱,本月最熱,編輯推薦

3.下載指定分類中的所有問答,例如:投資,編程,掛科

4.下載指定回答者的所有回答

5.最好有個一鍵點讚的變態功能(這樣我就可以一下子給雷倫的所有回答都點讚了我真是太機智了! )

那麼需要解決的技術問題簡單羅列如下:

1.模擬瀏覽器訪問網頁

2.抓取關鍵數據並保存到本地

3.解決網頁瀏覽中的動態加載問題

4.使用樹狀結構海量抓取知乎的所有內容

好的,目前就想了這些。

接下來就是準備工作了。

1.確定爬蟲語言:由於以前寫過一系列爬蟲教程(點擊這裡),百度貼吧,糗事百科,山東大學的績點查詢等都是用python寫的,所以這次決定使用Java來寫(餵完全沒有半毛錢聯繫好嗎)。

2.科普爬蟲知識:網路爬蟲,即Web Spider,是一個很形象的名字。把網路比喻成蜘蛛網,那麼Spider就是在網路上爬來爬去的蜘蛛。網路蜘蛛透過網頁的連結位址來尋找網頁。具體的入門介紹請(點這裡)。

3.準備爬蟲環境:Jdk和Eclipse的安裝和配置就不多說啦。這裡囉嗦一句,一個好用的瀏覽器對於爬蟲來說非常重要,因為首先你需要自己瀏覽網頁知道你需要的東西在哪裡,你才能告訴你的爬蟲們去哪裡怎麼爬。個人推薦火狐瀏覽器,或Google瀏覽器,它們的右鍵審查元素和查看原始碼的功能都非常強大。

下面我們開始正式的爬蟲之旅! ~具體講些什麼呢,恩,這是個問題,讓我好好想想,別急^_^



 以上就是零基礎寫Java知乎爬蟲之準備工作 的內容,更多相關內容請關注PHP中文網(www.php.cn)!


相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板