为什么写爬虫都喜欢用python?
楼主学php的,但是也自学过python,对php了解还是比较深的,看了一些python爬虫的源代码,感觉同样的功能php也都能写出来啊。
有人可能会吐槽说php不支持多线程,事实上php是有pthreads多线程扩展的,同样也可以很高效的支持php扩展。
楼主平时也玩玩渗透,很多情况下由于对php了解更多用起来更上手,所以很多payload利用或者一些sql注入验证脚本也都是php写的,感觉php数组处理比较方便,对数据的处理要更加灵活。(举个例子,php的数组其实就是python下的集合,元组,字典等数据结构的整合,结合一些数组处理框架比如说Laravel里面的集合辅助函数,甚至可以实现类似于.NET下的Linq语法,这方面我个人觉得php用起来比python要爽一点。不过我也不清楚python下是不是也有类似的类库?)
所以想问问python为什么会更适合编写爬虫?(可能是python有一些更强大的特性楼主不懂,因此前来请教)
可能很多人以为PHP只能做做网页,不知道PHP也有Simple-HTML-DOM , phpQuery, Ganon这些现成的DOM操作库吧,可能以为PHP只能自己从头用fopen/file_get_contents/curl/preg从头写吧,可能也不知道PHP有多线程pthreads或者不知道curl_multi并行发起请求吧.
因为用python写爬虫的人喜欢写博客分享,所以造成了你的这种错觉。
我们用java做的爬虫。其实啥语言都行,看团队和业务偏向。
我主用 PHP,但是我写爬虫依然不会选择用 PHP,而是用 python。
Python 有 scrapy 这样成熟的框架,我们大可不必自己从0开始
即使从0开始,以 Python 简洁的语法和一大波成熟的库,写起来相当的快。PHP 语法,你懂的。我试过写爬虫,体验还是不如 Python的
Python 数据处理个人认为比较方便,虽然 PHP 处理 DOM 也很挺方便的
Pthon 唯一不方便的大概是编码处理了。
@eechen 已经说了很多了,我来补充几个更为优雅的库。
用于爬取数据的:
guzzle
文档地址:http://docs.guzzlephp.org/en/...
Composer 库名:
guzzlehttp/guzzle
,对应 Packagist 地址 https://packagist.org/package...用于解析文档的:
DOMCrawler
文档地址:http://symfony.com/doc/curren...
Composer 库名:
symfony/dom-crawler
,对应 Packagist 地址:https://packagist.org/package...我自己觉得吧,虽然PHP是最好的语言,但是最重要的还是因为程序猿最大的美得——懒,PHP还得自己造轮子,Python下已经有很成熟的轮子了,那么作为一个有良好美得的程序猿自然就都用Python啦,要是题主造出个比Python爬虫还好用的轮子保证大家都用PHP啦
scrapy是个很成熟的爬虫库,成熟的原因;
管理cookie
css和xpath的选择器
并行爬取
link抽取
等等,还有一大堆插件,最重要的是易于扩展,象处理403之类的状态加个middelware就解决了
并非是说PHP可以写爬虫就得用它写爬虫,你叫C++情何以堪。在爬虫这块,Python为何如此倍受推崇,个人认为主要是各类优秀爬虫框架满足需求,不需要每个人从零开始造轮子。然后就是爬虫的应用是什么?数据分析,数据处理呀。。必然是Python相比PHP更有优势的地方
看业务场景, 像爬虫这类通用的需求, 自己熟悉哪个工具就用哪个吧。
所有图灵完备又有网络功能的都能实现爬虫额。。。但是问题是斧子能打猎、枪也能打猎,工具总有方便程度的额
库多
语法清楚
没了