python - pandas读取中文的时候乱码要如何解决?

Question

下载了一份新浪微博的数据,但是原始数据是用csv的,在mac上没办法直接打开,读取的时候,也会错误,会出现 {代码...} 然后自己google,发现read_csv('file', encoding = "ISO-8859-1") 这样的时候读取不会有错 但是读...

伊谢尔伦 · Answer

Beri saya kod dan data asal

Hanya tulis beberapa kod + data perwakilan, jangan buat beberapa gigabait data besar~

Siapa yang menonton?

大家讲道理 · Answer

Saya berada dalam situasi yang sama seperti anda Saya telah mencuba banyak pengekodan tetapi ia masih tidak berfungsi Namun, jika data dikodkan dalam UTF8, beberapa data boleh ditukar dengan jayanya, jadi cara yang saya boleh fikirkan. masanya ialah menggunakan buka untuk membaca baris demi baris Jika ia muncul Jika penukaran pengekodan salah, ia akan dibuang Dengan cara ini, jumlah data sebenarnya agak besar

高洛峰 · Answer

Anda juga boleh mencuba cp1252. Cara terbaik ialah menggunakan pakej chardet dahulu (https://pypi.python.org/pypi/...) untuk melihat pengekodan yang digunakan untuk fail.

天蓬老师 · Answer

Tiada masalah selepas mencubanya, saya rasa ia adalah masalah dengan pengekodan persekitaran anda. Anda boleh mencuba kod berikut

#coding=utf-8

import pandas as pd
import sys

reload(sys)
sys.setdefaultencoding("utf-8")

df = pd.read_csv('week1.csv', encoding='utf-8', nrows=10)

print df