我在用python监控一个网页 这个网页不定时的会更新 我要寻找需要匹配的关键词比如‘ABC’ 大概的程序框架如下
基本方法就是 用 selenium 获取源码 然后beautifulsoup解析 然后再去结果里面match 每2秒循环一次
while true:
html = browser.page_source
soup = BeautifulSoup(html)
abc=soup.find_all(text=re.compile("(ABC)"))
if not abc:
.....
else:
.....
browser.refresh()
time.sleep(2.0 - ((time.time() - starttime) % 2.0))
现在问题就是这个程序很依赖网速,browser.refresh() 刷新一次有可能就会用1秒钟
有没有什么办法 不需要刷新网页 就能知道网页有变化
或者有没有其他办法能让我这个程序 不被网速拖累
http
Last-Modified
헤더
'If-Modified-Since'
상태 코드:304 수정되지 않음
상태 코드 304는 페이지가 변경되지 않았음을 의미합니다
으아아아어제(4일)로 시간이 변경되었습니다
서버가 상태 코드 200을 반환합니다
그리고
도 있습니다'Last-Modified': 'Sun, 05 Feb 2017 06:00:03 GMT'
은 마지막 수정 시간을 나타냅니다.
으아아아어쨌든 데이터를 얻으려면 원본 사이트를 방문해야 합니다. 데이터를 캡처하지 않으면 변경 사항이 있는지 어떻게 알 수 있습니까?
이런 종류의 업데이트는 ajax를 사용해서 업데이트할 수도 있습니다. 개인적으로는 웹사이트의 js 코드를 보면 요청 URL과 매개변수를 직접 찾아볼 수 있다고 생각합니다.