目錄
如何使用爬虫监控一系列网站的更新情况?
html
我现在想到的方法只有每天自动把网站爬下来 然后对比新旧网站的HTML文件 才决定有没有更新
回复内容:
1 第一次先请求某个网页,抓取到本地,假设文件名为 a.html。这时文件系统有个文件的修改时间。2 第二次访问网页,如果发现本地已经有了 a.html,则向服务器发送一个 If-Modified-Since 的请求(http://www.w3.org/Protocols/rfc2616/rfc2616-sec14.html)。 把 a.html 的修改时间写到请求里。
3 如果网页更新了,服务器会返回一个 200 的应答,这时就重新抓取网页,更新本地文件。
4 如果网页没有更新,服务器会返回一个304的应答。这时就不需要更新文件了。 这个问题已经有人做出现成产品了,你可以看一下:
http://sleepingspider.com
注册成为用户后,可以选择需要关注的网页,如有更新会收到邮件提醒。还有一些高级的设置,没用过,你可以看看 我的本科毕设就是这个。。
当时做了一套监控果库、想去、花瓣市集、暖岛的服务。
实现方式:
1. crontab 定时任务
2. node 读取配置并调用 phantomjs(内存型浏览器) 访问各链接并存图。
3. 所有图片用日期分文件夹命名,用 Bootstrap 做个对比显示。
如果有这样一套服务,我觉得挺好的。
不过付费率可能是个问题。 也许用git对扒下来网页做版本控制也行吧? 我歪个楼
chrome有个Page Monitor的插件 使用MD5数字签名
每次下载网页时,把服务器返回的数据流ResponseStream先放在内存缓冲区,然后对
ResponseStream生成MD5数字签名S1,下次下载同样生成签名S2,比较S2和S1,如果相同,则页面没有
跟新,否则网页就有跟新。 可以使用网站资讯监控工具,非常符合你的要求
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章
如何修復KB5055518無法在Windows 10中安裝?
1 個月前
By DDD
如何修復KB5055523無法在Windows 11中安裝?
1 個月前
By DDD
<🎜>:種植花園 - 完整的突變指南
3 週前
By DDD
<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前
By 尊渡假赌尊渡假赌尊渡假赌
如何修復KB5055612無法在Windows 10中安裝?
3 週前
By DDD

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

本教程演示瞭如何使用PHP有效地處理XML文檔。 XML(可擴展的標記語言)是一種用於人類可讀性和機器解析的多功能文本標記語言。它通常用於數據存儲
