正则-智能建立网址列表程序意外停止但不出现错误?

WBOY
풀어 주다: 2016-06-02 11:27:59
원래의
873명이 탐색했습니다.

正则php咨询

最近想用PHP写一个收集站内网址列表的程序,如果要是为每个独立的网站都配置单独的规则程序就显得不够智能,所以想一次性写一个智能点的,我的思路是,程序从一个入口进入“www.xxx.com”后用FILE_GET_CONTENT 或CURL获取该页的HTML,然后通过正则分析出所有的链接保存到数组中。

这个时候问题就出现了,因为HTML写法问题,会出现很多情况,下面举例说明。

标题
标题
标题
标题
标题
标题
标题

等等吧,还有很多情况就不逐一写出来了,由于FILE_GET_CONTENT是必须能够访问到该页面才可以返回HTML,但是如果在访问之前不处理的话,就会出现无法访问被跳过的现象,于是我就根据一定情况对上述地址进行拼接使其能够被访问到。

但是我写出的程序依旧不能解决所有问题,而且现在会出现程序没执行完毕就停了,程序不报任何错误,好像结束了一样。

想赖咨询一下,大家有没有什么好的方法去匹配所有情况,因为网址拼接这块是个重点,如果不能有效拼接就无法抓取更多网址,但是通常的拼接不能解决所有情况。

希望大家给予指导。

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿
회사 소개 부인 성명 Sitemap
PHP 중국어 웹사이트:공공복지 온라인 PHP 교육,PHP 학습자의 빠른 성장을 도와주세요!