Ich möchte Jianshus Beiträge in einem bestimmten Zeitraum crawlen, beispielsweise vom 13. April 2013 bis 13. Mai 2013
Die Ideen, die ich ausprobieren möchte, sind folgende:
Baidu
Verwendung der Site-Syntax von Baidu
Begrenztes Datum
Beobachten Sie etwa 70 Beiträge
Google-Site-Syntax
Begrenztes Datum
Beobachten Sie etwa 120 Beiträge
Implementierung: Verwenden Sie Python, um die Suchergebnisse direkt anzufordern, leiten Sie dann die erhaltene URL um, um die echte Kurzbuch-URL zu erhalten, und fordern Sie dann die echte URL an
Frage
Sind die mit dieser Methode erzielten Ergebnisse zuverlässig? Gibt es eine zuverlässigere Methode?
Soll ich Google oder Baidu verwenden?
为了全面,你可以把主流的搜索引擎接口都拿来用,不一定要限制在某个搜索引擎接口上。我们有队友搜索某些话题就是这么干的,因为有的网站站内没提供满足需求的搜索方式,这个时候也只有借助搜索引擎了。不过通过搜索引擎搜索的方式信息可能不全面,robots协议规定了不能搜索的,搜索引擎不会收录