Beritahu saya tentang kaedah saya, saya telah merangkak data. Saya menggunakan pepijat api. Selepas membukanya, saya menemui laluan berikut: https://www.yilan.io/article/recommended Selepas melihat kandungan yang hendak disiarkan, saya memerlukan set data ini {"langkau ":0," had":20}. Mula menulis kod di bawah:
import urllib2
import urllib
import gzip
from StringIO import StringIO
import json
api = 'https://www.yilan.io/article/recommended'
data = {"skip":0,"limit":20}
headers = { 'Accept': 'application/json, text/plain, */*',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh',
'Connection': 'keep-alive',
'Cookie': 'XSRF-TOKEN=APc3KgEq-6wavGArI6rLf6tPW69j7H_Qm2s0; user=%7B%22_id%22%3A%22%22%2C%22role%22%3A%7B%22title%22%3A%22anon%22%2C%22bitMask%22%3A1610612736%7D%7D; Metrix-sid=s%3AjDAFvFGo3C0BJzR7cTXBXHl6VM493Gp0.C1svjUqfnY3NhUluURMDdaL3HEpUX8rpSj9%2F9yhKnEI',
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:51.0) Gecko/20100101 Firefox/51.0',
'X-XSRF-TOKEN': 'APc3KgEq-6wavGArI6rLf6tPW69j7H_Qm2s0'
}
url_data = urllib.urlencode(data)
request = urllib2.Request(api, data=url_data,headers=headers)
content = urllib2.urlopen(request).read()
contents = StringIO(content)
f = gzip.GzipFile(mode='rb', fileobj=contents).read()
b = json.loads(f)
print b
Kemudian hanya ekstrak kandungan yang anda mahukan Anda boleh menukar nilai had untuk menukar jumlah kandungan yang akan diperolehi pada satu masa. Tapak web mungkin menyemak data yang anda siarkan di latar belakang Jika terdapat ralat, ia akan menyebabkan 404, itulah sebabnya laluan tidak boleh diakses secara langsung.
Mungkin tetapan HTTP HEADERS tidak betul. Saya tidak tahu cara menyediakannya secara khusus Anda boleh menghasilkan set HEADERS yang menyerupai penyemak imbas biasa atau menjejaki permintaan dalam penyemak imbas.
Beritahu saya tentang kaedah saya, saya telah merangkak data. Saya menggunakan pepijat api. Selepas membukanya, saya menemui laluan berikut:

https://www.yilan.io/article/recommended
Selepas melihat kandungan yang hendak disiarkan, saya memerlukan set data ini {"langkau ":0," had":20}. Mula menulis kod di bawah:
Keputusan larian adalah seperti berikut:
Kemudian hanya ekstrak kandungan yang anda mahukan Anda boleh menukar nilai had untuk menukar jumlah kandungan yang akan diperolehi pada satu masa.
Tapak web mungkin menyemak data yang anda siarkan di latar belakang Jika terdapat ralat, ia akan menyebabkan 404, itulah sebabnya laluan tidak boleh diakses secara langsung.
Mungkin tetapan HTTP HEADERS tidak betul. Saya tidak tahu cara menyediakannya secara khusus Anda boleh menghasilkan set HEADERS yang menyerupai penyemak imbas biasa atau menjejaki permintaan dalam penyemak imbas.