python - pandas读取中文的时候乱码要如何解决?

Question

下载了一份新浪微博的数据,但是原始数据是用csv的,在mac上没办法直接打开,读取的时候,也会错误,会出现 {代码...} 然后自己google,发现read_csv('file', encoding = "ISO-8859-1") 这样的时候读取不会有错 但是读...

伊谢尔伦 · Answer

Donnez-moi le code et les données originales

Écrivez simplement du code + des données représentatives, ne créez pas quelques gigaoctets de big data~

Qui regarde ?

大家讲道理 · Answer

Je suis dans la même situation que vous. J'ai essayé de nombreux encodages mais cela ne fonctionne toujours pas. Cependant, si les données sont encodées en UTF8, certaines données peuvent être converties avec succès, donc comme je peux le penser. le moment est d'utiliser open pour lire ligne par ligne. S'il apparaît. Si la conversion d'encodage est incorrecte, elle sera supprimée de cette façon, la quantité de données est en fait assez importante

.

高洛峰 · Answer

Vous pouvez également essayer le cp1252. La meilleure façon est d'utiliser d'abord le package chardet (https://pypi.python.org/pypi/...) pour voir quel encodage est utilisé pour le fichier.

天蓬老师 · Answer

Il n'y a aucun problème après l'avoir essayé. Je suppose que c'est un problème avec l'encodage de votre environnement. Vous pouvez essayer le code suivant

.

#coding=utf-8

import pandas as pd
import sys

reload(sys)
sys.setdefaultencoding("utf-8")

df = pd.read_csv('week1.csv', encoding='utf-8', nrows=10)

print df