Heim > Backend-Entwicklung > PHP-Tutorial > php 网络爬虫

php 网络爬虫

WBOY
Freigeben: 2016-06-23 14:16:52
Original
1102 Leute haben es durchsucht

PHP 网络爬虫 数据库 行业数据

有开发过类似程序的高手吗?能够给点指点哦。功能需求是从网站自动获取相关数据,然后存入数据库。

回复讨论(解决方案)

curl爬取目标网站,正则或者DOM获取相应的数据,然后存数据库或者文件。
也没有太难的东西吧。你需要考虑的有:
爬取的策略(只抓取特定域名的,深度优先还是广度优先)。

爬取的效率(可开多线程去爬取,如何分配各个爬虫的任务)

等。。。。。。。。

谢谢,能否推荐些参考资料哈,本人菜鸟,还有待提高,十分感谢。

谢谢,能否推荐些参考资料哈,本人菜鸟,还有待提高,十分感谢。
开源的爬虫很多,phpdig等,如果不限语言,还有很多如java版的nutch(hadoop的前身)。。如果仅仅是简单的数据提取,倒是有一个很简单的client类,snoopy

开源的很多!!!!

想找php源码参考一下


谢谢,能否推荐些参考资料哈,本人菜鸟,还有待提高,十分感谢。
开源的爬虫很多,phpdig等,如果不限语言,还有很多如java版的nutch(hadoop的前身)。。如果仅仅是简单的数据提取,倒是有一个很简单的client类,snoopy
谢谢,我需要的是从网站自动抓取需要的数据,然后存入数据库。



谢谢,能否推荐些参考资料哈,本人菜鸟,还有待提高,十分感谢。
开源的爬虫很多,phpdig等,如果不限语言,还有很多如java版的nutch(hadoop的前身)。。如果仅仅是简单的数据提取,倒是有一个很简单的client类,snoopy
谢谢,我需要的是从网站自动抓取需要的数据,然后存入数据库。
仅仅是抓取部分网站数据的话,那就不用考虑过多的效率问题了。直接curl抓取目标网页(如果允许,最简单的file_get_contents也可),然后正则表达式或者DOM 获取数据就行了

自己写起来有点困难,有开源的吗?帮忙推荐下哦。谢谢了。

比如,我想自动抓取网络上(没有固定的url),名称为“宝马”的车的价格,然后存到一个数据库,然后我在读取出来。能写个简单代码示例吗?谢谢了。

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage