84669 orang belajar
152542 orang belajar
20005 orang belajar
5487 orang belajar
7821 orang belajar
359900 orang belajar
3350 orang belajar
180660 orang belajar
48569 orang belajar
18603 orang belajar
40936 orang belajar
1549 orang belajar
1183 orang belajar
32909 orang belajar
前端如何做到尽量可以防采集?有什么好的实现方案?
走同样的路,发现不同的人生
你去学习一下爬取网站或者说是反反爬虫的内容,然后一一想出应对措施,哈哈
通常会检验一下referer, 不过并没有什么卵用...
referer
没有人研究过吗?
防止爬虫抓取吗?好像并没有完美的方案吧
没有完美方法,有些辅助方法,根据IP请求次数,比如短时间内访问100次,那么阻止该IP。。但是有代理的存在,所以也没什么用,只能防新手。有或者限制并发,一个端只能10并发之类的。其实也一样,IP代理+多线程,依然突破并发限制,所以也只是防新手。
ajax获取数据并展示出来;一般采集不支持js执行
添加乱码符号,但又通过p等标签让乱码显示不出来(如不可见、字号最小、颜色跟底色一样)。这个方法在《读者》官网以前有使用过。
谁能在前端上面达到防采集的效果,呵呵,可以获诺贝尔物理奖了 -- By phantomjs
增加隐藏的控件,包含url,访问这个url的就是机器
知己知彼
你去学习一下爬取网站或者说是反反爬虫的内容,然后一一想出应对措施,哈哈
通常会检验一下
referer
, 不过并没有什么卵用...没有人研究过吗?
防止爬虫抓取吗?好像并没有完美的方案吧
没有完美方法,有些辅助方法,根据IP请求次数,比如短时间内访问100次,那么阻止该IP。。但是有代理的存在,所以也没什么用,只能防新手。
有或者限制并发,一个端只能10并发之类的。
其实也一样,IP代理+多线程,依然突破并发限制,所以也只是防新手。
前端防采集的方法一般常见的有:
ajax获取数据并展示出来;一般采集不支持js执行
添加乱码符号,但又通过p等标签让乱码显示不出来(如不可见、字号最小、颜色跟底色一样)。这个方法在《读者》官网以前有使用过。
谁能在前端上面达到防采集的效果,呵呵,可以获诺贝尔物理奖了 -- By phantomjs
增加隐藏的控件,包含url,访问这个url的就是机器