我在用python监控一个网页 这个网页不定时的会更新 我要寻找需要匹配的关键词比如‘ABC’ 大概的程序框架如下
基本方法就是 用 selenium 获取源码 然后beautifulsoup解析 然后再去结果里面match 每2秒循环一次
while true:
html = browser.page_source
soup = BeautifulSoup(html)
abc=soup.find_all(text=re.compile("(ABC)"))
if not abc:
.....
else:
.....
browser.refresh()
time.sleep(2.0 - ((time.time() - starttime) % 2.0))
现在问题就是这个程序很依赖网速,browser.refresh() 刷新一次有可能就会用1秒钟
有没有什么办法 不需要刷新网页 就能知道网页有变化
或者有没有其他办法能让我这个程序 不被网速拖累
Http
Last-Modified
en-têtes
'If-Modified-Since'
Code d'état : 304 non modifié
Le code d'état 304 signifie que la page n'a pas été modifiée
L'heure a été changée pour hier (4)
Le serveur renvoie le code d'état 200
et il y a
'Last-Modified': 'Sun, 05 Feb 2017 06:00:03 GMT'
indique l'heure de la dernière modification.
Quoi qu'il en soit, vous devez visiter le site source pour obtenir les données. Si vous ne capturez pas les données, comment saurez-vous s'il y a des changements ?
Ce type de mise à jour peut être mis à jour en utilisant ajax. Personnellement, je pense que vous pouvez regarder le code js du site pour trouver l'URL et les paramètres de la requête. Si possible, accéder directement à la requête ?