84669 person learning
152542 person learning
20005 person learning
5487 person learning
7821 person learning
359900 person learning
3350 person learning
180660 person learning
48569 person learning
18603 person learning
40936 person learning
1549 person learning
1183 person learning
32909 person learning
前端如何做到尽量可以防采集?有什么好的实现方案?
走同样的路,发现不同的人生
你去学习一下爬取网站或者说是反反爬虫的内容,然后一一想出应对措施,哈哈
通常会检验一下referer, 不过并没有什么卵用...
referer
没有人研究过吗?
防止爬虫抓取吗?好像并没有完美的方案吧
没有完美方法,有些辅助方法,根据IP请求次数,比如短时间内访问100次,那么阻止该IP。。但是有代理的存在,所以也没什么用,只能防新手。有或者限制并发,一个端只能10并发之类的。其实也一样,IP代理+多线程,依然突破并发限制,所以也只是防新手。
ajax获取数据并展示出来;一般采集不支持js执行
添加乱码符号,但又通过p等标签让乱码显示不出来(如不可见、字号最小、颜色跟底色一样)。这个方法在《读者》官网以前有使用过。
谁能在前端上面达到防采集的效果,呵呵,可以获诺贝尔物理奖了 -- By phantomjs
增加隐藏的控件,包含url,访问这个url的就是机器
知己知彼
你去学习一下爬取网站或者说是反反爬虫的内容,然后一一想出应对措施,哈哈
通常会检验一下
referer
, 不过并没有什么卵用...没有人研究过吗?
防止爬虫抓取吗?好像并没有完美的方案吧
没有完美方法,有些辅助方法,根据IP请求次数,比如短时间内访问100次,那么阻止该IP。。但是有代理的存在,所以也没什么用,只能防新手。
有或者限制并发,一个端只能10并发之类的。
其实也一样,IP代理+多线程,依然突破并发限制,所以也只是防新手。
前端防采集的方法一般常见的有:
ajax获取数据并展示出来;一般采集不支持js执行
添加乱码符号,但又通过p等标签让乱码显示不出来(如不可见、字号最小、颜色跟底色一样)。这个方法在《读者》官网以前有使用过。
谁能在前端上面达到防采集的效果,呵呵,可以获诺贝尔物理奖了 -- By phantomjs
增加隐藏的控件,包含url,访问这个url的就是机器