コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > バックエンド開発 > PHPチュートリアル > curl - php 如何实现定时爬取一个网页的新闻的时间

curl - php 如何实现定时爬取一个网页的新闻的时间

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-06-06 20:37:18

オリジナル

1286 人が閲覧しました

现在项目要求是每天凌晨去爬取一个网页的内容求大神支招最好有代码简述谢谢了

回复内容：

现在项目要求是每天凌晨去爬取一个网页的内容求大神支招最好有代码简述谢谢了

1.定时用Linux工具crontab
2.爬取用php的file_get_contents函数足矣，不行就用php_curl扩展
3.内容用正则表达式匹配

新闻一般都写有时间的吧,你比如这个 http://news.163.com/15/0313/03/AKIB93GC00014AED.html,他里面就写有时间戳: 2015-03-13 03:20:29
如果没有的化,新闻网站一般都是静态页面,你可以参考他的http header,比如

curl 'http://news.163.com/15/0313/03/AKIB93GC00014AED.html' --head
HTTP/1.1 200 OK
Server: FSCS/1.2.5
Date: Fri, 13 Mar 2015 01:23:25 GMT
Content-Type: text/html; charset=GBK
Content-Length: 162187
Connection: keep-alive
Last-Modified: Fri, 13 Mar 2015 01:18:25 GMT
Vary: Accept-Encoding
ETag: "55023ae1-2798b"
......

这里面, Last-Modified就是可以近似当做他的时间啦.

写好抓取脚本，用Linux crontab定时去执行。

関連ラベル：

curl php

前の記事：PHP 验证码显示破图是怎么回事？次の記事：这种并发锁的原理是啥

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

NullPointerException とは何ですか?どのように修正すればよいですか?

2024-10-22 09:46:29
初心者からプログラマーへ: 旅は C の基礎から始まります

2024-10-13 13:53:41
PHP による Web 開発のロックを解除する: 初心者ガイド

2024-10-12 12:15:51
C の謎を解く: 新人プログラマーのための明確でシンプルな道

2024-10-11 22:47:31
コーディングの可能性を解き放つ: まったくの初心者のための C プログラミング

2024-10-11 19:36:51
内なるプログラマーを解き放つ: まったくの初心者のための C

2024-10-11 15:50:41
C で生活を自動化する: 初心者向けのスクリプトとツール

2024-10-11 15:07:41
PHP を簡単に: Web 開発の最初のステップ

2024-10-11 14:21:21
Python で何でも構築: 創造性を解き放つための初心者ガイド

2024-10-11 12:59:11
コーディングの鍵: 初心者のための Python の力を解き放つ

2024-10-11 12:17:31

最新の問題

PHP 拡張子 intl

から 1970-01-01 08:00:00

0

0

0

phpのデータ取得？

から 1970-01-01 08:00:00

0

0

0

PHP GET エラーレポート

から 1970-01-01 08:00:00

0

0

0

phpを上手に学ぶ方法

から 1970-01-01 08:00:00

0

0

0

PHP Toolboxを使用してPHPファイルを開く方法

から 1970-01-01 08:00:00

0

0

0

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート