前端如何做到尽量可以防采集?有什么好的实现方案?
走同样的路,发现不同的人生
你去学习一下爬取网站或者说是反反爬虫的内容,然后一一想出应对措施,哈哈
通常会检验一下referer, 不过并没有什么卵用...
referer
没有人研究过吗?
防止爬虫抓取吗?好像并没有完美的方案吧
没有完美方法,有些辅助方法,根据IP请求次数,比如短时间内访问100次,那么阻止该IP。。但是有代理的存在,所以也没什么用,只能防新手。有或者限制并发,一个端只能10并发之类的。其实也一样,IP代理+多线程,依然突破并发限制,所以也只是防新手。
ajax获取数据并展示出来;一般采集不支持js执行
添加乱码符号,但又通过p等标签让乱码显示不出来(如不可见、字号最小、颜色跟底色一样)。这个方法在《读者》官网以前有使用过。
谁能在前端上面达到防采集的效果,呵呵,可以获诺贝尔物理奖了 -- By phantomjs
增加隐藏的控件,包含url,访问这个url的就是机器
知己知彼
你去学习一下爬取网站或者说是反反爬虫的内容,然后一一想出应对措施,哈哈
通常会检验一下
referer
, 不过并没有什么卵用...没有人研究过吗?
防止爬虫抓取吗?好像并没有完美的方案吧
没有完美方法,有些辅助方法,根据IP请求次数,比如短时间内访问100次,那么阻止该IP。。但是有代理的存在,所以也没什么用,只能防新手。
有或者限制并发,一个端只能10并发之类的。
其实也一样,IP代理+多线程,依然突破并发限制,所以也只是防新手。
前端防采集的方法一般常见的有:
ajax获取数据并展示出来;一般采集不支持js执行
添加乱码符号,但又通过p等标签让乱码显示不出来(如不可见、字号最小、颜色跟底色一样)。这个方法在《读者》官网以前有使用过。
谁能在前端上面达到防采集的效果,呵呵,可以获诺贝尔物理奖了 -- By phantomjs
增加隐藏的控件,包含url,访问这个url的就是机器