社区

学习

工具库

AI工具

休闲

简体中文

首页 > 后端开发 > php教程 > curl - php 如何实现定时爬取一个网页的新闻的时间

curl - php 如何实现定时爬取一个网页的新闻的时间

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

发布： 2016-06-06 20:37:18

原创

1325 人浏览过

现在项目要求是每天凌晨去爬取一个网页的内容求大神支招最好有代码简述谢谢了

回复内容：

现在项目要求是每天凌晨去爬取一个网页的内容求大神支招最好有代码简述谢谢了

1.定时用Linux工具crontab
2.爬取用php的file_get_contents函数足矣，不行就用php_curl扩展
3.内容用正则表达式匹配

新闻一般都写有时间的吧,你比如这个 http://news.163.com/15/0313/03/AKIB93GC00014AED.html,他里面就写有时间戳: 2015-03-13 03:20:29
如果没有的化,新闻网站一般都是静态页面,你可以参考他的http header,比如

curl 'http://news.163.com/15/0313/03/AKIB93GC00014AED.html' --head
HTTP/1.1 200 OK
Server: FSCS/1.2.5
Date: Fri, 13 Mar 2015 01:23:25 GMT
Content-Type: text/html; charset=GBK
Content-Length: 162187
Connection: keep-alive
Last-Modified: Fri, 13 Mar 2015 01:18:25 GMT
Vary: Accept-Encoding
ETag: "55023ae1-2798b"
......

这里面, Last-Modified就是可以近似当做他的时间啦.

写好抓取脚本，用Linux crontab定时去执行。

相关标签：

curl php

上一篇：PHP 验证码显示破图是怎么回事？下一篇：这种并发锁的原理是啥

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

LLM的工作方式：培训前训练，神经网络，幻觉和推理

2025-02-26 03:58:14
我将区块链和AI组合在一起以生成艺术。接下来发生了什么。

2025-02-26 03:38:10
高级及时工程：思想链（COT）

2025-02-26 03:17:10
在Sqlite中检索增强发电

2025-02-26 02:49:09
如何使用LLM驱动的样板构建自己的节点。JSAPI

2025-02-26 01:08:13
2024年编码的LLM：价格，性能和争取最佳的战斗

2025-02-26 00:46:10
提示视觉语言模型

2025-02-25 23:42:08
如何衡量大语模型的响应的可靠性

2025-02-25 22:50:13
生活的幻想

2025-02-25 21:54:11
科学家对大型语言模型的认真反映了人类思维

2025-02-25 20:45:11

最新问题

怎么学好php

来自于 1970-01-01 08:00:00

0

0

0

PHP扩展intl

来自于 1970-01-01 08:00:00

0

0

0

php数据获取？

来自于 1970-01-01 08:00:00

0

0

0

你好!"PHP工具箱"是使用php开发的吗？(准备学习PHP)

来自于 1970-01-01 08:00:00

0

0

0

sublime3 添加编译系统php时，用PHP工具箱，cmd php -v没用

来自于 1970-01-01 08:00:00

0

0

0

相关专题

更多>

热门推荐

热门教程

更多>

相关教程

热门推荐

最新课程

最新ThinkPHP 5.1全球首发视频教程(60天成就PHP大牛线上培训班课)

1434815
php入门教程之一周学会PHP

4293103
JAVA 初级入门视频教程

2646645
小甲鱼零基础入门学习Python视频教程

515622
PHP 零基础入门教程

875490

最新下载

更多>

网站特效

网站源码

网站素材

前端模板