正则-智能建立网址列表程序意外停止但不出现错误?

WBOY
发布: 2016-06-02 11:27:59
原创
874 人浏览过

正则php咨询

最近想用PHP写一个收集站内网址列表的程序,如果要是为每个独立的网站都配置单独的规则程序就显得不够智能,所以想一次性写一个智能点的,我的思路是,程序从一个入口进入“www.xxx.com”后用FILE_GET_CONTENT 或CURL获取该页的HTML,然后通过正则分析出所有的链接保存到数组中。

这个时候问题就出现了,因为HTML写法问题,会出现很多情况,下面举例说明。

标题
标题
标题
标题
标题
标题
标题

等等吧,还有很多情况就不逐一写出来了,由于FILE_GET_CONTENT是必须能够访问到该页面才可以返回HTML,但是如果在访问之前不处理的话,就会出现无法访问被跳过的现象,于是我就根据一定情况对上述地址进行拼接使其能够被访问到。

但是我写出的程序依旧不能解决所有问题,而且现在会出现程序没执行完毕就停了,程序不报任何错误,好像结束了一样。

想赖咨询一下,大家有没有什么好的方法去匹配所有情况,因为网址拼接这块是个重点,如果不能有效拼接就无法抓取更多网址,但是通常的拼接不能解决所有情况。

希望大家给予指导。

相关标签:
来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责声明 Sitemap
PHP中文网:公益在线PHP培训,帮助PHP学习者快速成长!