abstract:做数据采集用Python最佳,PHP不太推荐。推荐几个库吧:Python:1.requests 很好用的http库,中文文档:Requests: 让 HTTP 服务人类2.BeautifulSoup 很好用很强大的html解析库,中文文档:Beautiful Soup 4.4.0 文档3.Scrapy 知名爬虫框架,中文文档:Scrapy 0.25 文档PHP:1.Guzzle 很好用PHP HT
做数据采集用Python最佳,PHP不太推荐。推荐几个库吧:
Python:
1.requests 很好用的http库,中文文档:Requests: 让 HTTP 服务人类
2.BeautifulSoup 很好用很强大的html解析库,中文文档:Beautiful Soup 4.4.0 文档
3.Scrapy 知名爬虫框架,中文文档:Scrapy 0.25 文档
PHP:
1.Guzzle 很好用PHP HTTP库,再也不用写原生的curl了。中文文档:快速入门 — Guzzle中文文档
2.html-parser HTML解析库,项目地址:GitHub - bupt1987/html-parser: php html parser,类似与PHP Simple HTML DOM Parser,但是比它快好几倍
3.php-html-parser 老外的html解析库,和上面那个用起来差不多,项目地址:GitHub - paquettg/php-html-parser: An HTML DOM parser. It allows you to manipulate HTML. Find tags on an HTML page with selectors just like jQuery.
4.phpspider 知乎上某人写的php爬虫库,暂时没用过,可以看看,项目地址:https://github.com/owner888/phpspider
至于数据库,mongoDB、MySQL都可以。