首页 web前端 前端问答 浅谈爬虫及绕过网站反爬取机制

浅谈爬虫及绕过网站反爬取机制

Aug 25, 2020 pm 04:50 PM
爬虫

 浅谈爬虫及绕过网站反爬取机制

【相关学习推荐:网站制作视频教程

      爬虫是什么呢,简单而片面的说,爬虫就是由计算机自动与服务器交互获取数据的工具。爬虫的最基本就是get一个网页的源代码数据,如果更深入一些,就会出现和网页进行POST交互,获取服务器接收POST请求后返回的数据。一句话,爬虫用来自动获取源数据,至于更多的数据处理等等是后续的工作,这篇文章主要想谈谈爬虫获取数据的这一部分。爬虫请注意网站的Robot.txt文件,不要让爬虫违法,也不要让爬虫对网站造成伤害。

  反爬及反反爬概念的不恰当举例

  基于很多原因(如服务器资源,保护数据等),很多网站是限制了爬虫效果的。

  考虑一下,由人来充当爬虫的角色,我们怎么获取网页源代码?最常用的当然是右键源代码。

  网站屏蔽了右键,怎么办?

网站屏蔽了右键,怎么办?

  拿出我们做爬虫中最有用的东西 F12(欢迎讨论)

  同时按下F12就可以打开了(滑稽)

2.png

  源代码出来了!!

  在把人当作爬虫的情况下,屏蔽右键就是反爬取策略,F12就是反反爬取的方式。

  讲讲正式的反爬取策略

  事实上,在写爬虫的过程中一定出现过没有返回数据的情况,这种时候也许是服务器限制了UA头(user-agent),这就是一种很基本的反爬取,只要发送请求的时候加上UA头就可以了…是不是很简单?

  其实一股脑把需要不需要的Request Headers都加上也是一个简单粗暴的办法……

  有没有发现网站的验证码也是一个反爬取策略呢?为了让网站的用户能是真人,验证码真是做了很大的贡献。随验证码而来的,验证码识别出现了。

  说到这,不知道是先出现了验证码识别还是图片识别呢?

  简单的验证码现在识别起来是非常简单的,网上有太多教程,包括稍微进阶一下的去噪,二值,分割,重组等概念。可是现在网站人机识别已经越发的恐怖了起来,比如这种:

6.jpg

  简单讲述一下去噪二值的概念

  将一个验证码

3.png

变成

5.png

就是二值,也就是将图片本身变成只有两个色调,例子很简单,通过python PIL库里的

  Image.convert("1")

  就能实现,但如果图片变得更为复杂,还是要多思考一下,比如

如果直接用简单方式的话 就会变成

思考一些这种验证码应该怎么识别?这种时候 去噪 就派上了用处,根据验证码本身的特征,可以计算验证码的底色和字体之外的RGB值等,将这些值变成一个颜色,将字体留出。示例代码如下,换色即可

  for x in range(0,image.size[0]):
  for y in range(0,image.size[1]):
  # print arr2[x][y]
  if arr[x][y].tolist()==底色:
  arr[x][y]=0
  elif arr[x][y].tolist()[0] in range(200,256) and arr[x][y].tolist()[1] in range(200,256) and arr[x][y].tolist()[2] in range(200,256):
  arr[x][y]=0
  elif arr[x][y].tolist()==[0,0,0]:
  arr[x][y]=0
  else:
  arr[x][y]=255
登录后复制

  arr是由numpy得到的,根据图片RGB值得出的矩阵,读者可以自己尝试完善代码,亲自实验一下。

  细致的处理之后图片可以变成

识别率还是很高的。

  在验证码的发展中,还算清晰的数字字母,简单的加减乘除,网上有轮子可以用,有些难的数字字母汉字,也可以自己造轮子(比如上面),但更多的东西,已经足够写一个人工智能了……(有一种工作就是识别验证码…)

  再加一个小提示:有的网站PC端有验证码,而手机端没有…

  下一个话题!

  反爬取策略中比较常见的还有一种封IP的策略,通常是短时间内过多的访问就会被封禁,这个很简单,限制访问频率或添加IP代理池就OK了,当然,分布式也可以…

  IP代理池->左转Google右转baidu,有很多代理网站,虽然免费中能用的不多 但毕竟可以。

  还有一种也可以算作反爬虫策略的就是异步数据,随着对爬虫的逐渐深入(明明是网站的更新换代!),异步加载是一定会遇见的问题,解决方式依然是F12。以不愿透露姓名的网易云音乐网站为例,右键打开源代码后,尝试搜索一下评论

8.png

  数据呢?!这就是JS和Ajax兴起之后异步加载的特点。但是打开F12,切换到NetWork选项卡,刷新一下页面,仔细寻找,没有秘密。

7.png

  哦,对了 如果你在听歌的话,点进去还能下载呢…

4.png

  仅为对网站结构的科普,请自觉抵制盗版,保护版权,保护原创者利益。

  如果说这个网站限制的你死死的,怎么办?我们还有最后一计,一个强无敌的组合:selenium + PhantomJs

  这一对组合非常强力,可以完美模拟浏览器行为,具体的用法自行百度,并不推荐这种办法,很笨重,此处仅作为科普。

以上是浅谈爬虫及绕过网站反爬取机制的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
威尔R.E.P.O.有交叉游戏吗?
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

python爬虫要学多久 python爬虫要学多久 Oct 25, 2023 am 09:44 AM

学习Python爬虫的时间因人而异,取决于个人的学习能力、学习方法、学习时间和经验等因素。学习Python爬虫不仅仅是学习技术本身,还需要具备良好的信息搜集能力、问题解决能力和团队协作能力。通过不断学习和实践,您将逐渐成长为一名优秀的Python爬虫开发者。

PHP 爬虫实战:爬取 Twitter 上的数据 PHP 爬虫实战:爬取 Twitter 上的数据 Jun 13, 2023 pm 01:17 PM

在数字化时代下,社交媒体已经成为人们生活中不可或缺的一部分。Twitter作为其中的代表,每天有数亿用户在上面分享各种信息。对于一些研究、分析、推销等需求,获取Twitter上的相关数据是非常必要的。本文将介绍如何使用PHP编写一个简单的Twitter爬虫,爬取一些关键字相关的数据并存储在数据库中。一、TwitterAPITwitter提供

爬虫技巧:如何在 PHP 中处理 Cookie 爬虫技巧:如何在 PHP 中处理 Cookie Jun 13, 2023 pm 02:54 PM

在爬虫开发中,处理Cookie常常是必不可少的一环。Cookie作为HTTP中的一种状态管理机制,通常被用来记录用户的登录信息和行为,是爬虫处理用户验证和保持登录状态的关键。在PHP爬虫开发中,处理Cookie需要掌握一些技巧和留意一些坑点。下面我们详细介绍如何在PHP中处理Cookie。一、如何获取Cookie在使用PHP编写

PHP爬虫类的常见问题解析与解决方案 PHP爬虫类的常见问题解析与解决方案 Aug 06, 2023 pm 12:57 PM

PHP爬虫类的常见问题解析与解决方案引言:随着互联网的快速发展,网络数据的获取成为了各个领域中的重要环节。而PHP作为一门广泛应用的脚本语言,其在数据获取方面有着强大的能力,其中一种常用的技术就是爬虫。然而,在开发和使用PHP爬虫类的过程中,我们常常会遇到一些问题。本文将分析并给出这些问题的解决方案,并提供相应的代码示例。一、无法正确解析目标网页的数据问题描

高效的Java爬虫实战:网页数据抓取技巧分享 高效的Java爬虫实战:网页数据抓取技巧分享 Jan 09, 2024 pm 12:29 PM

Java爬虫实战:如何高效抓取网页数据引言:随着互联网的快速发展,大量有价值的数据被存储在各种网页中。而要获取这些数据,往往需要手动访问每个网页并逐一提取信息,这无疑是一项繁琐且耗时的工作。为了解决这个问题,人们开发了各种爬虫工具,其中Java爬虫是最常用的之一。本文将带领读者了解如何使用Java编写高效的网页爬虫,并通过具体代码示例来展示实践。一、爬虫的基

高效率爬取网页数据:PHP和Selenium的结合使用 高效率爬取网页数据:PHP和Selenium的结合使用 Jun 15, 2023 pm 08:36 PM

随着互联网技术的飞速发展,Web应用程序越来越多地应用于我们的日常工作和生活中。而在Web应用程序开发过程中,爬取网页数据是一项非常重要的任务。虽然市面上有很多的Web抓取工具,但是这些工具的效率都不是很高。为了提高网页数据爬取的效率,我们可以利用PHP和Selenium的结合使用。首先,我们需要了解一下PHP和Selenium分别是什么。PHP是一种强大的

爬虫实战:使用PHP抓取股票信息 爬虫实战:使用PHP抓取股票信息 Jun 13, 2023 pm 05:32 PM

股票市场一直是一个备受关注的话题。股票每天的涨跌幅和变化,直接影响着投资者的决策。而想要了解股票市场的最新动态,就需要及时获取并分析股票信息。传统的方法是手动打开各大财经网站逐一查看股票数据,这个方法显然过于繁琐且效率低下。而在此时,爬虫成为了一种非常高效和自动化的解决方案。接下来,我们将实战演示如何使用PHP编写一个简单的股票爬虫程序,用于获取股票数据。准

PHP 实战:爬取 Bilibili 弹幕数据 PHP 实战:爬取 Bilibili 弹幕数据 Jun 13, 2023 pm 07:08 PM

Bilibili是一个盛行于中国的弹幕视频网站,也是一片宝藏,里面蕴藏着各种各样的数据。其中弹幕数据是一项非常有价值的资源,因此许多数据分析师和研究人员都希望能够获取这些数据。在本文中,我将介绍使用PHP语言实现爬取Bilibili弹幕数据。准备工作在开始爬取弹幕数据之前,我们需要安装一个PHP爬虫框架Symphony2。可以通过以下命令进

See all articles