**Saya merangkak data daripada dokumen pengadil sebelum ini Selepas menjalankan semula perangkak dalam tempoh ini, saya mendapati data halaman web tidak dapat diperoleh
Selepas mencari, saya mendapati kod sumber halaman web permintaan dikembalikan kod**
(Memintas sebahagian daripada data yang dikembalikan seperti berikut:<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta id="JLyKZlWgYjpTkAsEt9LnA" )
Saya tidak tahu sama ada tapak web telah menyulitkan kandungan web Bagaimana saya boleh menyelesaikan masalah ini? Terima kasih!
Memintas sebahagian kod sumber program:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'zh-TW,zh;q=0.8,en-US;q=0.6,en;q=0.4',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'keep-alive',
'Content-Type': 'text/html; charset=utf-8'}
html = requests.post('http://wenshu.court.gov.cn/List/ListContent', data=data, headers=headers)
print(html.text)
Tetapi data yang sepatutnya dikembalikan dikembalikan dalam elemen semakan Apakah masalah di sini?
Data yang dikembalikan semasa program berjalan seperti biasa adalah seperti ini:
Ajax memuatkan halaman hasil, jika tiada hasil maklum balas yang serupa dengan json boleh diperolehi dalam rangkaian. Hanya gunakan PHANTOMJS untuk mensimulasikan pemuatan. Kemudian padankan merangkak.
Pengekodan yang digunakan oleh objek html anda adalah salah
Tambahkan baris html.encoding = html.apparent_encoding
Simpulkan pengekodan berdasarkan teks yang sebenarnya diperoleh dan nyahkod semula.
Jika anda sudi menggerudi, saya akan berikan alamat rujukan: http://www.qingpingshan.com/j...
cetak html.content