python - 使用selenium，用PhantomJS抓取网页后保存为.html后出现中文乱码？

Question

保存的html文档中出现中文乱码：&lt;meta name="keywords" content="鈽呯敤閽㈢惔璇犻噴鍛ㄦ澃浼︹櫔鏃犱笌浼︽瘮涓嶉€濈粡鍏革紝姊︽兂瀹禯eDragon锛岄挗鐞达紝缁忓吀锛岃交闊充箰"&gt; 代码： {代码...} 1.使用...

黄舟 · Answer

Cuba ini:

print(browser.page_source.encode('utf-8').decode(), file=open("xxx.html","w", encoding='utf-8'))

高洛峰 · Answer

print(browser.page_source,file=open('C:/Users/welwel/Desktop/source.html','w'))

高洛峰 · Answer

Baiklah, keperluan saya ialah merangkak komen dan tajuk lagu lagu pada asalnya saya bercadang untuk merangkak ke halaman web dan perlahan-lahan kemudiannya, saya mendapati bahawa halaman web bernombor ganjil adalah biasa dalam bahasa Cina. halaman web bernombor telah bercelaru (saya mahu merangkaknya. 50 halaman web), dan kemudian ia diterbalikkan. Ini bermakna terdapat pepijat pada win7 dan linux tidak dipasang. Gunakan analisis xpath mengikut keperluan,
cth:
ele_com = browser.find_element_by_xpath("//p[@class='cnt f-brk']")
Data yang dikembalikan adalah normal. Masih berjalan pada cmd.
Jadi jika anda ingin merangkak data, hanya gunakan alat pada modul, jangan main-main