禁止自己的网站被爬虫爬去?有什么方法啊
光阴似箭催人老,日月如移越少年。
如果是防御针对性的爬虫,可以做一些访问限制,比如访问频率,添加验证码等等。
重要内容使用js动态添加
限制http_referer
不同的界面可以考虑不同的模板,一套正则不能完美匹配的那种
在可能会爬的内容里随机加一些版权信息
.登陆之后才可以进行访问
记录访问日志
能想到的就这些,不过如果真的想抓,这些也就只是增加一点抓取的难度而已
禁止搜索引擎爬取可以修改robots.txt禁止个人爬取的话难度有点大,只能增加难度,比如增加比较复杂的验证码、访问频率、定时换样式/数据格式之类的
如果是防御针对性的爬虫,可以做一些访问限制,比如访问频率,添加验证码等等。
重要内容使用js动态添加
限制http_referer
不同的界面可以考虑不同的模板,一套正则不能完美匹配的那种
在可能会爬的内容里随机加一些版权信息
.登陆之后才可以进行访问
记录访问日志
能想到的就这些,不过如果真的想抓,这些也就只是增加一点抓取的难度而已
禁止搜索引擎爬取可以修改robots.txt
禁止个人爬取的话难度有点大,只能增加难度,比如增加比较复杂的验证码、访问频率、定时换样式/数据格式之类的