此前一直是做PHP开发的,现在想学习下爬虫开发,很疑惑呀不知道从何做起,请大家指教下学习线路,我是属于想要深入研究型的。网上看到很多示例感觉就像做采集,Url扩散爬去和分析部分的资料很少...求推荐学习线路、数据、视频等各种,能介绍下避坑攻略就更好啦。
学习是最好的投资!
做過web開發的我覺得做爬蟲很簡單,明確這個是http協議就ok了
隨便說幾點吧
爬取速度(控制與速度權衡)
多執行緒
多進程
訊息佇列
網頁解析
介面發現->善用F12.Network
xpath、re等解析庫
結構化資料
持久化->資料庫連線池->使資料庫連線在一定數量
反爬蟲
禁IP->代理池->如何更合理的使用代理
驗證碼->OCR
可以先用 PHP 實作爬蟲,理解原理。 curl 也能做啊,語言只是工具
看一本叫做《python網路爬蟲》的書。
做過web開發的我覺得做爬蟲很簡單,明確這個是http協議就ok了
隨便說幾點吧
爬取速度(控制與速度權衡)
多執行緒
多進程
訊息佇列
網頁解析
介面發現->善用F12.Network
xpath、re等解析庫
結構化資料
持久化->資料庫連線池->使資料庫連線在一定數量
反爬蟲
禁IP->代理池->如何更合理的使用代理
驗證碼->OCR
可以先用 PHP 實作爬蟲,理解原理。 curl 也能做啊,語言只是工具
看一本叫做《python網路爬蟲》的書。