網路爬蟲,又被稱為網頁蜘蛛,網路機器人,在FOAF社群中間,更經常的稱為網頁追逐者,是一種按照一定的規則,自動地抓取萬維網資訊的程式或者腳本,另外一些不常使用的名字還有螞蟻、自動索引、模擬程式或蠕蟲。
大部分爬蟲都是以「傳送請求—取得頁面—解析頁面—抽取並儲存內容」這樣的流程來進行,這其實也是模擬了我們使用瀏覽器取得網頁資訊的過程。
簡單來講,爬蟲就是一個探測機器,它的基本操作就是模擬人的行為去各個網站溜達,點點按鈕,查查數據,或者把看到的信息背回來。就像一隻蟲子在一樓不知疲倦地爬來爬去。
可以簡單想像:每個爬蟲都是你的「分身」。就像孫悟空拔了一撮汗毛,吹出一堆猴子一樣。
我們每天使用的百度,其實就是利用了這種爬蟲技術:每天放出無數爬蟲到各個網站,把他們的資訊抓回來,然後化好淡妝排著小隊等你來檢索。
相關推薦:《python爬蟲是什麼?為什麼把python叫做爬蟲?》
以上是爬蟲是什麼?的詳細內容。更多資訊請關注PHP中文網其他相關文章!