首页 > 后端开发 > php教程 > 连续的分页采集问题

连续的分页采集问题

WBOY
发布: 2016-06-06 20:38:28
原创
1402 人浏览过

目标站点:http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm
获取内容:正文图片和文字说明;
本人实现方法:
因为分页地址是连续的,我是在目标地址上做循环

http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm

get_headers访问后 获取返回是否为200,是的话进行内容抓取
1、curl获取当前地址html后,截取所需内容
2、_2这个就是变量,自增后继续判断下一页是否可以访问,可以访问就继续采集

以上是可以实现采集抓取的,但是好像速度很慢,而且每次都是curl去抓取对服务器貌似也有压力

问题:如何改进,大家是如何用php做的抓取,求思路和方向

回复内容:

目标站点:http://news.xinhuanet.com/photo/2015-01/29/c_127433852.htm
获取内容:正文图片和文字说明;
本人实现方法:
因为分页地址是连续的,我是在目标地址上做循环

http://news.xinhuanet.com/photo/2015-01/29/c_127433852_2.htm

get_headers访问后 获取返回是否为200,是的话进行内容抓取
1、curl获取当前地址html后,截取所需内容
2、_2这个就是变量,自增后继续判断下一页是否可以访问,可以访问就继续采集

以上是可以实现采集抓取的,但是好像速度很慢,而且每次都是curl去抓取对服务器貌似也有压力

问题:如何改进,大家是如何用php做的抓取,求思路和方向

下面不是有分页么,直接获取<div id="div_currpage"></div>里面的链接存到数组抓吧

  1. 直接抓取,抓取返回结果的时候就先判断状态码是否为200
  2. Curl并发
相关标签:
php
来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板