Saya mahu merangkak siaran Jianshu dalam tempoh masa tertentu, seperti 13 April 2013 - 13 Mei 2013
Idea yang ingin saya cuba adalah seperti berikut:
Baidu
Menggunakan sintaks tapak Baidu
Tarikh terhad
Perhatikan kira-kira 70 siaran
sintaks tapak google
Tarikh terhad
Perhatikan kira-kira 120 siaran
Pelaksanaan: Gunakan Python untuk meminta terus hasil carian, kemudian ubah hala URL yang diperoleh untuk mendapatkan URL buku pendek sebenar, dan kemudian minta URL sebenar
Soalan
Adakah keputusan yang diperoleh menggunakan kaedah ini boleh dipercayai? Adakah terdapat kaedah yang lebih dipercayai?
Perlukah saya menggunakan Google atau Baidu?
Untuk menjadi komprehensif, anda boleh menggunakan semua antara muka enjin carian arus perdana dan anda tidak perlu dihadkan kepada antara muka enjin carian tertentu. Beginilah cara sesetengah rakan sepasukan kami mencari topik tertentu, kerana sesetengah laman web tidak menyediakan kaedah carian yang memenuhi keperluan Pada masa ini, kami hanya boleh menggunakan enjin carian. Walau bagaimanapun, maklumat yang dicari melalui enjin carian mungkin tidak menyeluruh Perjanjian robot menetapkan bahawa jika anda tidak boleh mencari, enjin carian tidak akan memasukkannya