PHP, Python, Node.js 哪个比较适合写爬虫？-php教程-PHP中文网

回复内容：

首页

后端开发

php教程

PHP, Python, Node.js 哪个比较适合写爬虫？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 17, 2016 am 08:30 AM

mysql python urllib windows

1.对页面的解析能力
2.对数据库的操作能力（mysql）
3.爬取效率
4.代码量
推荐语言时说明所需类库或者框架，谢谢。
比如：python+MySQLdb+urllib2+re
ps:其实我不太喜欢用python(可能是在windows平台的原因，需要各种转字符编码，而且多线程貌似很鸡肋。)

回复内容：

主要看你定义的“爬虫”干什么用。

1、如果是定向爬取几个页面，做一些简单的页面解析，爬取效率不是核心要求，那么用什么语言差异不大。
当然要是页面结构复杂，正则表达式写得巨复杂，尤其是用过那些支持xpath的类库/爬虫库后，就会发现此种方式虽然入门门槛低，但扩展性、可维护性等都奇差。因此此种情况下还是推荐采用一些现成的爬虫库，诸如xpath、多线程支持还是必须考虑的因素。

2、如果是定向爬取，且主要目标是解析js动态生成的内容
此时候，页面内容是有js/ajax动态生成的，用普通的请求页面->解析的方法就不管用了，需要借助一个类似firefox、chrome浏览器的js引擎来对页面的js代码做动态解析。
此种情况下，推荐考虑casperJS+phantomjs或slimerJS+phantomjs ，当然诸如selenium之类的也可以考虑。

3、如果爬虫是涉及大规模网站爬取，效率、扩展性、可维护性等是必须考虑的因素时候
大规模爬虫爬取涉及诸多问题：多线程并发、I/O机制、分布式爬取、消息通讯、判重机制、任务调度等等，此时候语言和所用框架的选取就具有极大意义了。
PHP对多线程、异步支持较差，不建议采用。
NodeJS：对一些垂直网站爬取倒可以，但由于分布式爬取、消息通讯等支持较弱，根据自己情况判断。
Python：强烈建议，对以上问题都有较好支持。尤其是Scrapy框架值得作为第一选择。优点诸多：支持xpath；基于twisted，性能不错；有较好的调试工具；
此种情况下，如果还需要做js动态内容的解析，casperjs就不适合了，只有基于诸如chrome V8引擎之类自己做js引擎。
至于C、C++虽然性能不错，但不推荐，尤其是考虑到成本等诸多因素；对于大部分公司还是建议基于一些开源的框架来做，不要自己发明轮子，做一个简单的爬虫容易，但要做一个完备的爬虫挺难的。

像我搭建的微信公众号内容聚合的网站http://lewuxian.com就是基于Scrapy做的，当然还涉及消息队列等。可以参考下图：

具体内容可以参考一个任务调度分发服务的架构稍微谈谈我的使用感受，PHP不会，用过Python和Node.js。

简单的定向爬取：
Python + urlib2 + RegExp + bs4
或者
Node.js + co，任一一款dom框架或者html parser + Request + RegExp 撸起来也是很顺手。
对我来说上面两个选择差不多是等价的，但主要我JS比较熟，现在选择Node平台会多一些。

上规模的整站爬取：
Python + Scrapy
如果说上面两个方案里DIY 的 spider是小米加步枪，那Scrapy简直就是重工加农炮，好用到不行，自定义爬取规则，http错误处理，XPath，RPC，Pipeline机制等等等。而且，由于Scrapy是基于Twisted实现的，所以同时兼顾有非常好的效率，相对来说唯一的缺点就是安装比较麻烦，依赖也比较多，我还算是比较新的osx，一样没办法直接pip install scrapy

另外如果在spider中引入xpath的话，再在chrome上安装xpath的插件，那么解析路径一目了然，开发效率奇高。 PHP和js天生不是干这个的；python有比较完善的框架，但我没用过不太清楚；不过nodejs倒是可以拿来谈谈，因为看知乎的数据就是用node抓的。

估计和我一样在Windows开发、部署到linux服务器的人不少。nodejs在这时就有个很突出的优点：部署方便、跨平台几乎无障碍，相比之下python……简直让人脱层皮。
解析页面用的是cheerio，全兼容jQuery语法，熟悉前端的话用起来爽快之极，再也不用折腾烦人的正则了；
操作数据库直接用mysql这个module就行，该有的功能全有；
爬取效率么，其实没有真正做过压力测试，因为我抓的是知乎，线程稍多一点瓶颈就跑到带宽上。而且它也不是真多线程而是异步，最后带宽全满（大约几百线程、10MB/s左右）时，CPU也不过50%左右，这还只是一个linode最低配主机的CPU。况且平时我限制了线程和抓取间隔，简直不怎么消耗性能；
最后是代码，异步编程最头疼的是掉进callback地狱，根据自己实际情况写个多线队列的话，也不比同步编程麻烦太多就是了。一点一点做解答吧：

1.对页面的解析能力

关于这一条，基本上就是靠特定语言的第三方包来完成网页的解析。如果要从零开始自己实现一个HTML解析器，难度和时间上的阻碍都是很大的。而对于复杂的基于大量Javascript运算生成的网页或者请求，则可以通过调度浏览器环境来完成。这一条上，Python是绝对胜任的。

2.对数据库的操作能力（mysql）

对数据库的操作能力上，Python有官方及第三方的连接库。另外，对于爬虫抓取的数据，存储在NoSQL型数据库个人认为更加合适。

3.爬取效率

确实脚本语言的运算速度不高，但是相对于特定网站反爬虫机制强度以及网络IO的速度，这几门语言的速度诧异都可以忽略不计，而在于开发者的水平。如果利用好发送网络请求的等待时间处理另外的事情（多线程、多进程或者协程），那么各语言效率上是不成问题的。

4.代码量

这一点上Python是占有优势的，众所周知Python代码简洁著称，只要开发者水平到位，Python代码可以像伪代码一样简洁易懂，且代码量较低。

推荐语言时说明所需类库或者框架，谢谢。
比如：python+MySQLdb+urllib2+re

Python: requests + MongoDB + BeautifulSoup

ps:其实我不太喜欢用python(可能是在windows平台的原因，需要各种转字符编码，而且多线程貌似很鸡肋。)

由于GIL的存在，Python的多线程确实没有利用到多核的优势，对此你可以使用多进程解决。但是对于爬虫，更多的时间在于网络IO的等待上，所以直接使用协程即可很好地提升抓取速度。

另外，最近在我的专栏总结一些Python编写爬虫的经验，如果有兴趣欢迎围观指正。
专栏地址：http://zhuanlan.zhihu.com/xlz-d 用Python来抓取和提取HTML中有用的内容，因为这方面的库确实很方便，beautifulsoup和requests。

用Node来写入数据库，异步的方式无需等待同步IO的完成，也不需要涉及多线程的锁问题。如今Node5.x已经支持ES6，可以用promise来解决多重嵌套的回调函数的问题。

至于用php做数据抓取和分析，还是算了吧。我用 PHP Node.js Python 写过抓取脚本，简单谈一下吧。

首先PHP。先说优势：网上抓取和解析html的框架一抓一大把，各种工具直接拿来用就行了，比较省心。缺点：首先速度/效率很成问题，有一次下载电影海报的时候，由于是crontab定期执行，也没做优化，开的php进程太多，直接把内存撑爆了。然后语法方面也很拖沓，各种关键字符号太多，不够简洁，给人一种没有认真设计过的感觉，写起来很麻烦。

Node.js。优点是效率、效率还是效率，由于网络是异步的，所以基本如同几百个进程并发一样强大，内存和CPU占用非常小，如果没有对抓取来的数据进行复杂的运算加工，那么系统的瓶颈基本就在带宽和写入MySQL等数据库的I/O速度。当然，优点的反面也是缺点，异步网络代表你需要callback，这时候如果业务需求是线性了，比如必须等待上一个页面抓取完成后，拿到数据，才能进行下一个页面的抓取，甚至多层的依赖关系，那就会出现可怕的多层callback！基本这时候，代码结构和逻辑就会一团乱麻。当然可以用Step等流程控制工具解决这些问题。

最后说Python。如果你对效率没有极端的要求，那么推荐用Python！首先，Python的语法很简洁，同样的语句，可以少敲很多次键盘。然后，Python非常适合做数据的处理，比如函数参数的打包解包，列表解析，矩阵处理，非常方便。

自己最近也在弄一个Python的数据抓取处理工具包，还在修改完善中，欢迎star：yangjiePro/cutout - GitHub python有scapy，专门用来做爬虫的一个框架用php里的curl抓取手机验证码平台里的号码
利用curl 爬取草liu 页面,并且自动下载图片
嗯,我喜欢草榴,python我还在看,个人觉得,python确实很强大,nodejs以后一定会看,
哦,php不支持多线程,所以只能利用服务器或者扩展来做,mab,我又不会了.........
算了,看会草榴去... 建议使用Python，多线程的方面会非常爽。
曾经使用Python写过8大音乐网站的抓取程序，所以可以很笃定的建议你。写爬虫我用过PHP、Python，JS写爬虫还没见过，Node.js不了解。

PHP写爬虫还好，我写过一个，用PHP Command Line下运行。用Curl_multi 50线程并发，一天能抓大概60万页，依网速而定，我是用的校园网所以比较快，数据是用正则提取出来的。
Curl是比较成熟的一个lib，异常处理、http header、POST之类都做得很好，重要的是PHP下操作MySQL进行入库操作比较省心。
不过在多线程Curl（Curl_multi）方面，对于初学者会比较麻烦，特别是PHP官方文档在Curl_multi这方面的介绍也极为模糊。

Python写爬虫一个最大的好处是比较傻瓜，Requests之类的lib功能上和Curl相当，但是如果只是做简单的爬虫，易用性比较好，而且有Beautiful Soup这样的傻瓜lib，确实是非常适合用来做爬虫。
不过编码可能的确是个令初学者头疼的问题，我觉得PHP可能还更好一点，事实上如果不是团队要求，我自己做着玩的爬虫，我都是用PHP写的。

JavaScript我觉得像一个在虚拟机里的虚拟机，抛开性能不谈。

它首先是在一个沙箱里跑的，对于操作数据库或者本地文件，会比较麻烦，没有原生接口，我因为没用过这个做爬虫，也没去研究过有什么其他方案。

对于DOM树的解析，除了效率比较低下，内存占用也比较大。

跨域的话，虽然在Chrome下可以通过 --disable-web-security来禁用，不过也是一件麻烦事。

总之JS要写爬虫，麻烦事是一大堆。

我是没见过有人拿这个写爬虫的。

Node.js 我是真的没有用过。

1.对页面的解析能力基本没区别，大家都支持正则，不过Python有些傻瓜拓展，用起来会方便很多；
2.对数据库的操作能力的话，PHP对MySQL有原生支持，Python需要添加MySQLdb之类的lib，不过也不算麻烦；
3.爬取效率的话，都支持多线程，效率我倒是没感觉有什么区别，基本上瓶颈只在网络上了。不过严谨的测试我没做过，毕竟我没有用多种语言实现同一种功能的习惯，不过我倒是感觉PHP好像还要快一些？
4.代码量的话，爬虫这种简单的东西基本没什么区别，几十行的事，如果加上异常处理也就百来行，或者麻烦点异常的Mark下来，等下重爬等等的处理，也就几百行，大家都没什么区别。
不过Python如果不把lib算进去的话显然是最少的。

说到性能的话，爬虫和性能基本不搭边，是不用考虑的事情。在我开爬虫的时候，将近30Mbps的爬取效率下，用PHP Command Line做的爬虫，CPU占用也不过3-5%，内存消耗大概15-20MiB（Core 2 Duo P8700——有些历史的老U了，爬虫是50线程，每个线程含10个正则提取、1个JSON解析、2个数据库Insert操作 (百万级别数据的IF NOT EXIST )、40个左右的各种异常判断）——瓶颈应该只有网络。
在你没G口的情况下，不用管什么性能，随便挑一个都一样，自己熟悉的就好。

我开爬虫那几天，大概爬了270GiB左右的数据。

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

Undresser.AI Undress

人工智能驱动的应用程序，用于创建逼真的裸体照片

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

免费脱衣服图片

Clothoff.io

AI脱衣机

AI Hentai Generator

免费生成ai无尽的。

显示更多

热工具

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

中文版，非常好用

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

显示更多

热门话题

gmail邮箱登陆入口在哪里

7433

CakePHP 教程

1359

steam的账户名称是什么格式

win11激活密钥永久

显示更多

Related knowledge

RDS MySQL 与 Redshift 零 ETL 集成 Apr 08, 2025 pm 07:06 PM

数据集成简化：AmazonRDSMySQL与Redshift的零ETL集成高效的数据集成是数据驱动型组织的核心。传统的ETL（提取、转换、加载）流程复杂且耗时，尤其是在将数据库（例如AmazonRDSMySQL）与数据仓库（例如Redshift）集成时。然而，AWS提供的零ETL集成方案彻底改变了这一现状，为从RDSMySQL到Redshift的数据迁移提供了简化、近乎实时的解决方案。本文将深入探讨RDSMySQL零ETL与Redshift集成，阐述其工作原理以及为数据工程师和开发者带来的优势。

mysql 能处理多个连接吗 Apr 08, 2025 pm 03:51 PM

MySQL能处理多个并发连接，利用多线程/多进程为每个客户端请求分配独立执行环境，确保不受干扰。但并发连接数量受系统资源、MySQL配置、查询性能、存储引擎和网络环境影响。优化需要考虑代码层面（编写高效SQL）、配置层面（调整max_connections）、硬件层面（提升服务器配置）等多方面因素。

mysql 是否更改表锁定表 Apr 08, 2025 pm 05:06 PM

MySQL修改表结构时，通常使用元数据锁，可能导致锁表。为了减少锁的影响，可采取以下措施：1. 使用在线DDL保持表可用；2. 分批执行复杂修改；3. 在小表或非高峰期操作；4. 使用PT-OSC工具实现更精细的控制。

MySQL 中的查询优化对于提高数据库性能至关重要，尤其是在处理大型数据集时 Apr 08, 2025 pm 07:12 PM

1.使用正确的索引索引通过减少扫描的数据量来加速数据检索select*fromemployeeswherelast_name='smith';如果多次查询表的某一列，则为该列创建索引如果您或您的应用根据条件需要来自多个列的数据，则创建复合索引2.避免选择*仅选择那些需要的列，如果您选择所有不需要的列，这只会消耗更多的服务器内存并导致服务器在高负载或频率时间下变慢例如，您的表包含诸如created_at和updated_at以及时间戳之类的列，然后避免选择*，因为它们在正常情况下不需要低效查询se

mysql 可以在 android 上运行吗 Apr 08, 2025 pm 05:03 PM

MySQL无法直接在Android上运行，但可以通过以下方法间接实现：使用轻量级数据库SQLite，由Android系统自带，无需单独服务器，资源占用小，非常适合移动设备应用。远程连接MySQL服务器，通过网络连接到远程服务器上的MySQL数据库进行数据读写，但存在网络依赖性强、安全性问题和服务器成本等缺点。

无法以 root 身份登录 mysql Apr 08, 2025 pm 04:54 PM

无法以 root 身份登录 MySQL 的原因主要在于权限问题、配置文件错误、密码不符、socket 文件问题或防火墙拦截。解决方法包括：检查配置文件中 bind-address 参数是否正确配置。查看 root 用户权限是否被修改或删除，并进行重置。验证密码是否准确无误，包括大小写和特殊字符。检查 socket 文件权限设置和路径。检查防火墙是否阻止了 MySQL 服务器的连接。

mysql 是否要付费 Apr 08, 2025 pm 05:36 PM

MySQL 有免费的社区版和收费的企业版。社区版可免费使用和修改，但支持有限，适合稳定性要求不高、技术能力强的应用。企业版提供全面商业支持，适合需要稳定可靠、高性能数据库且愿意为支持买单的应用。选择版本时考虑的因素包括应用关键性、预算和技术技能。没有完美的选项，只有最合适的方案，需根据具体情况谨慎选择。

如何针对高负载应用程序优化 MySQL 性能？ Apr 08, 2025 pm 06:03 PM

MySQL数据库性能优化指南在资源密集型应用中，MySQL数据库扮演着至关重要的角色，负责管理海量事务。然而，随着应用规模的扩大，数据库性能瓶颈往往成为制约因素。本文将探讨一系列行之有效的MySQL性能优化策略，确保您的应用在高负载下依然保持高效响应。我们将结合实际案例，深入讲解索引、查询优化、数据库设计以及缓存等关键技术。1.数据库架构设计优化合理的数据库架构是MySQL性能优化的基石。以下是一些核心原则：选择合适的数据类型选择最小的、符合需求的数据类型，既能节省存储空间，又能提升数据处理速度

See all articles

PHP, Python, Node.js 哪个比较适合写爬虫？

回复内容：

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题