我在用python监控一个网页 这个网页不定时的会更新 我要寻找需要匹配的关键词比如‘ABC’ 大概的程序框架如下
基本方法就是 用 selenium 获取源码 然后beautifulsoup解析 然后再去结果里面match 每2秒循环一次
while true:
html = browser.page_source
soup = BeautifulSoup(html)
abc=soup.find_all(text=re.compile("(ABC)"))
if not abc:
.....
else:
.....
browser.refresh()
time.sleep(2.0 - ((time.time() - starttime) % 2.0))
现在问题就是这个程序很依赖网速,browser.refresh() 刷新一次有可能就会用1秒钟
有没有什么办法 不需要刷新网页 就能知道网页有变化
或者有没有其他办法能让我这个程序 不被网速拖累
HTTP
最終更新日
Last-Modified
headers
'If-Modified-Since'
Status Code:304 Not Modified
状态码 304 表示页面未改动
时间改为 昨天(4号)
服务器返回状态码200
并且有
ヘッダー'Last-Modified': 'Sun, 05 Feb 2017 06:00:03 GMT'
'If-Modified-Since'
🎜 🎜ステータスコード:304 未変更🎜 🎜ステータス コード 304 は、ページが変更されていないことを意味します🎜 リーリー 🎜時間は昨日(4日)に変わります🎜 🎜サーバーはステータスコード 200 を返します🎜 🎜そして、'Last-Modified': 'Sun, 05 Feb 2017 06:00:03 GMT'
があります🎜 🎜 は最終変更時刻を示します。 🎜 リーリーデータを取得するにはソース サイトにアクセスする必要があります。データをキャプチャしないと、変更があるかどうかをどうやって知ることができるのでしょうか?
この種の更新は、ajax を使用して更新される可能性があります。可能であれば、Web サイトの js コードを見て、リクエストの URL とパラメーターを見つけることができると思います。