Menggunakan lxml untuk menangkap aksara Cina, hasilnya sangat menyakitkan, saya tidak tahu bagaimana untuk menanganinya...
comUrl="http://m.51job.com/search/codetail.php?coid=4108723"
res=requests.get(comUrl)
html=etree.HTML(res.text)
p=html.xpath("//aside")[1].xpath("./p") #结果为[<Element p at 0x7bf01c8>, <Element p at 0x78f4408>, <Element p at 0x69db388>]
p[0].xpath("./span/text()") #这个是想要抓取的字符
Hasilnya seperti ini [u'xe6x80xa7xe8xb4xa8']
unikod tetapi kandungannya ialah pengekodan str Bagaimana untuk menukar perkara ini kepada bahasa Cina?
Biasanya ia sepatutnya 'xe6x80xa7xe8xb4xa8' atau u'u6027u8d28'
Apabila ini berlaku, biasanya kerana permintaan telah meneka pengekodan halaman web yang salah
Jadi, nyatakan sahaja pengekodan permintaan.
res.encoding ='utf-8'