> 백엔드 개발 > PHP 튜토리얼 > curl - php 如何实现定时爬取 一个网页的新闻的时间

curl - php 如何实现定时爬取 一个网页的新闻的时间

WBOY
풀어 주다: 2016-06-06 20:37:18
원래의
1223명이 탐색했습니다.

现在项目要求是每天凌晨去爬取一个网页的内容 求大神支招 最好有代码简述 谢谢了

回复内容:

现在项目要求是每天凌晨去爬取一个网页的内容 求大神支招 最好有代码简述 谢谢了

1.定时用Linux工具crontab
2.爬取用php的file_get_contents函数足矣,不行就用php_curl扩展
3.内容用正则表达式匹配

  1. 新闻一般都写有时间的吧,你比如这个 http://news.163.com/15/0313/03/AKIB93GC00014AED.html,他里面就写有时间戳: 2015-03-13 03:20:29

  2. 如果没有的化,新闻网站一般都是静态页面,你可以参考他的http header,比如

    curl 'http://news.163.com/15/0313/03/AKIB93GC00014AED.html' --head
    HTTP/1.1 200 OK
    Server: FSCS/1.2.5
    Date: Fri, 13 Mar 2015 01:23:25 GMT
    Content-Type: text/html; charset=GBK
    Content-Length: 162187
    Connection: keep-alive
    Last-Modified: Fri, 13 Mar 2015 01:18:25 GMT
    Vary: Accept-Encoding
    ETag: "55023ae1-2798b"
    ......

这里面, Last-Modified就是可以近似当做他的时间啦.

写好抓取脚本,用Linux crontab定时去执行。

관련 라벨:
원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿