python - pandas读取中文的时候乱码 要如何解决?
巴扎黑
巴扎黑 2017-04-18 10:28:36
0
4
1268

下载了一份新浪微博的数据,但是原始数据是用csv的,在mac上没办法直接打开,读取的时候,也会错误,会出现

UnicodeDecodeError: 'utf-8' codec can't decode byte 0x84 in position 36: invalid start byte

然后自己google,发现
read_csv('file', encoding = "ISO-8859-1") 这样的时候读取不会有错

但是读取进来发现是这样的:

中文全部

然后测试了
read_csv('file', encoding = "gbk")
read_csv('file', encoding = "utf8")
read_csv('file', encoding = "gb18030")
总之就是各种不行~基本的情况如下:

UnicodeDecodeError: 'gb18030' codec can't decode byte 0xaf in position 12: incomplete multibyte sequence

有大神遇到类似的情况吗?

有大神说要数据 因为比较大,热心的人可以看看 不过我觉得挺有用的
下面是微博的数据
链接:http://pan.baidu.com/s/1jHCOwCI 密码:x58f

补充一下代码吧~
上面随意一个文件下载下来(是csv格式的)然后用pandas打开就会出错~

import pandas
df = pandas.read_csv("week1.csv")
巴扎黑
巴扎黑

모든 응답(4)
伊谢尔伦

코드와 원본 데이터를 주세요


코드 몇 개 + 대표 데이터만 작성하고, 몇 기가바이트의 빅데이터를 생성하지 마세요~

누가 보고 있나요?

大家讲道理

저도 당신과 같은 상황입니다. 많은 인코딩을 시도했지만 여전히 작동하지 않습니다. 그러나 데이터가 UTF8로 인코딩되면 일부 데이터는 성공적으로 변환될 수 있습니다. 현재는 open을 사용하여 한줄씩 읽어나가는 방식입니다. 만약 인코딩 변환이 잘못되면 버려지게 되는 데이터의 양이 실제로는 꽤 많습니다

小葫芦

cp1252를 사용해 볼 수도 있습니다. 가장 좋은 방법은 먼저 chardet 패키지(https://pypi.python.org/pypi/...)를 사용하여 파일에 어떤 인코딩이 사용되는지 확인하는 것입니다.

Peter_Zhu

해본 결과에는 문제가 없습니다. 아마도 환경 인코딩에 문제가 있는 것 같습니다.

으아악
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿