网页爬虫 - Python:爬虫的中文编码问题?
ringa_lee
ringa_lee 2017-04-18 10:26:54
0
4
530

爬取中文网页后正则匹配出中文,得打UTF-8的编码字符

将其输出为.csv文件

在.CSV中显示为乱码

用记事本打开.csv又可以正常显示为中文

有没有大神指点是怎么一回事?怎样才能在Excel里直接看到中文?

ringa_lee
ringa_lee

ringa_lee

membalas semua(4)
Ty80

Cara mudahnya ialah menggunakan kaedah pandas to_excel untuk menukarnya menjadi fail .xlsx, kerana pengekodan lalai .xlsx menyokong Excel secara lalai Perbezaannya sudah tentu ia tidak boleh dibuka dengan Notepad.

import pandas as pd

a = pd.read_csv('./test.csv')

a.to_excel('./test_output.xlsx', index=False)

a.to_excel('./test_output.csv', index=False)

Saya tidak mempunyai tingkap di sini untuk menguji Anda boleh cuba menulis pengekodan sebagai gb2312 atau gbk.

Untuk fail meja I/O, panda sebenarnya lebih mudah.

伊谢尔伦

abs1=abs1.decode().encode('gbk')

小葫芦

Excel menggunakan pengekodan GBK secara lalai.

洪涛

Buat fail excel baharu, kemudian klik Data daripada teks untuk mengimport fail csv

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan
Tentang kita Penafian Sitemap
Laman web PHP Cina:Latihan PHP dalam talian kebajikan awam,Bantu pelajar PHP berkembang dengan cepat!