Python merangkak halaman web dengan permintaan yang bercelaru
phpcn_u1582
phpcn_u1582 2017-06-22 11:51:56
0
4
1268

**Saya merangkak data daripada dokumen pengadil sebelum ini Selepas menjalankan semula perangkak dalam tempoh ini, saya mendapati data halaman web tidak dapat diperoleh
Selepas mencari, saya mendapati kod sumber halaman web permintaan dikembalikan kod**

(Memintas sebahagian daripada data yang dikembalikan seperti berikut:<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta id="JLyKZlWgYjpTkAsEt9LnA" )

Saya tidak tahu sama ada tapak web telah menyulitkan kandungan web Bagaimana saya boleh menyelesaikan masalah ini? Terima kasih!

Memintas sebahagian kod sumber program:

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'zh-TW,zh;q=0.8,en-US;q=0.6,en;q=0.4',
        'Accept-Encoding': 'gzip, deflate',
        'Connection': 'keep-alive',
        'Content-Type': 'text/html; charset=utf-8'}
html = requests.post('http://wenshu.court.gov.cn/List/ListContent', data=data, headers=headers)
print(html.text)

Tetapi data yang sepatutnya dikembalikan dikembalikan dalam elemen semakan Apakah masalah di sini?

Data yang dikembalikan semasa program berjalan seperti biasa adalah seperti ini:

phpcn_u1582
phpcn_u1582

membalas semua(4)
仅有的幸福

Ajax memuatkan halaman hasil, jika tiada hasil maklum balas yang serupa dengan json boleh diperolehi dalam rangkaian. Hanya gunakan PHANTOMJS untuk mensimulasikan pemuatan. Kemudian padankan merangkak.

小葫芦

Pengekodan yang digunakan oleh objek html anda adalah salah
Tambahkan baris html.encoding = html.apparent_encoding
Simpulkan pengekodan berdasarkan teks yang sebenarnya diperoleh dan nyahkod semula.

刘奇

Jika anda sudi menggerudi, saya akan berikan alamat rujukan: http://www.qingpingshan.com/j...

学习ing

cetak html.content

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan