php 网络爬虫-PHP-Tutorial-php.cn

php 网络爬虫

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2016-06-23 14:16:52

Original

1141 Leute haben es durchsucht

PHP 网络爬虫数据库行业数据

有开发过类似程序的高手吗？能够给点指点哦。功能需求是从网站自动获取相关数据，然后存入数据库。

回复讨论(解决方案)

curl爬取目标网站，正则或者DOM获取相应的数据，然后存数据库或者文件。
也没有太难的东西吧。你需要考虑的有：
爬取的策略（只抓取特定域名的，深度优先还是广度优先）。

爬取的效率（可开多线程去爬取，如何分配各个爬虫的任务）

等。。。。。。。。

谢谢，能否推荐些参考资料哈，本人菜鸟，还有待提高，十分感谢。

谢谢，能否推荐些参考资料哈，本人菜鸟，还有待提高，十分感谢。
开源的爬虫很多，phpdig等，如果不限语言，还有很多如java版的nutch（hadoop的前身）。。如果仅仅是简单的数据提取，倒是有一个很简单的client类，snoopy

开源的很多!!!!

想找php源码参考一下

谢谢，能否推荐些参考资料哈，本人菜鸟，还有待提高，十分感谢。
开源的爬虫很多，phpdig等，如果不限语言，还有很多如java版的nutch（hadoop的前身）。。如果仅仅是简单的数据提取，倒是有一个很简单的client类，snoopy
谢谢，我需要的是从网站自动抓取需要的数据，然后存入数据库。

谢谢，能否推荐些参考资料哈，本人菜鸟，还有待提高，十分感谢。
开源的爬虫很多，phpdig等，如果不限语言，还有很多如java版的nutch（hadoop的前身）。。如果仅仅是简单的数据提取，倒是有一个很简单的client类，snoopy
谢谢，我需要的是从网站自动抓取需要的数据，然后存入数据库。
仅仅是抓取部分网站数据的话，那就不用考虑过多的效率问题了。直接curl抓取目标网页（如果允许，最简单的file_get_contents也可），然后正则表达式或者DOM 获取数据就行了

自己写起来有点困难，有开源的吗？帮忙推荐下哦。谢谢了。

比如，我想自动抓取网络上（没有固定的url），名称为“宝马”的车的价格，然后存到一个数据库，然后我在读取出来。能写个简单代码示例吗？谢谢了。