最近在写一个python程序要把一些rss中的文章不断获取下来
但不知道怎么判断rss是否更新过,只获取那些更新出来的文章
目前的想法是对每一个rss存一个最新文章的时间,下一次把所有更新的文章获取下来,然后更新这个最新时间
对了还有另外一个问题,就是感觉rss中的文章数没有网页上多,貌似好几天才有新的,但网页上是每天都有的,是什么原因?
光阴似箭催人老,日月如移越少年。
理論的には、RSS は http ヘッダーで last-modified または etag (アトム) を返す必要があります。これはこれによって判断できます。
Python のフィードパーサーでは、次のように使用できます。
インポートフィードパーサー d = feedparser.parse(rss_url) d = feedparser.parse(rss_url、modified=d.modified、etag=d.etag) d.ステータス #304 d.フィード # {}
更新がない場合、2 回目は何も取得できません
RSS には GUID がありませんか? 最新の GUID を保存して、再度クロールするときに判断してください。RSS が更新されたかどうかは、他人のサーバー プログラムの問題であり、制御することはできません。
lz、このプログラム コードを要求してください。最後のトピックは、投稿者に助けを求めたいのですが、基本的な知識がありません。このプロジェクトを迅速に完了する方法を教えてください。
理論的には、RSS は http ヘッダーで last-modified または etag (アトム) を返す必要があります。これはこれによって判断できます。
Python のフィードパーサーでは、次のように使用できます。
更新がない場合、2 回目は何も取得できません
RSS には GUID がありませんか? 最新の GUID を保存して、再度クロールするときに判断してください。RSS が更新されたかどうかは、他人のサーバー プログラムの問題であり、制御することはできません。
lz、このプログラム コードを要求してください。最後のトピックは、投稿者に助けを求めたいのですが、基本的な知識がありません。このプロジェクトを迅速に完了する方法を教えてください。