网页爬虫 - Python:爬虫的中文编码问题?
ringa_lee
ringa_lee 2017-04-18 10:26:54
0
4
562

爬取中文网页后正则匹配出中文,得打UTF-8的编码字符

将其输出为.csv文件

在.CSV中显示为乱码

用记事本打开.csv又可以正常显示为中文

有没有大神指点是怎么一回事?怎样才能在Excel里直接看到中文?

ringa_lee
ringa_lee

ringa_lee

répondre à tous(4)
Ty80

Le moyen simple est d'utiliser la méthode pandas de to_excel pour le convertir en un fichier .xlsx, car l'encodage par défaut de .xlsx prend en charge Excel par défaut. La différence est bien sûr que cela ne peut pas l'être. ouvert avec le Bloc-notes.

import pandas as pd

a = pd.read_csv('./test.csv')

a.to_excel('./test_output.xlsx', index=False)

a.to_excel('./test_output.csv', index=False)

Je n'ai pas de fenêtres ici pour tester. Vous pouvez essayer d'écrire l'encodage comme gb2312 ou gbk.

Pour les E/S de fichiers de table, pandas est en fait plus pratique.

伊谢尔伦

abs1=abs1.decode().encode('gbk')

小葫芦

Excel utilise le codage GBK par défaut.

洪涛

Créez un nouveau fichier Excel, puis cliquez sur Données à partir du texte pour importer le fichier csv

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal