python - GBK中的Unicode编码

Question

小弟最近使用Python处理一批新闻语料，主要的工作就是将和标签中文本取出，并以空格分割字符。文件中的部分格式如下： {代码...} 细心的朋友或许注意到北京前面有个乱码，此外数字1、6和4都是全角的。全角转半角...

高洛峰 · Answer

>>> '组图：震前汶川风光\ue40c震前汶川风光\u3000ＱＱ群４９１４６６７．作者肚螂皮'.encode('gbk')
Traceback (most recent call last):
  File "", line 1, in 
UnicodeEncodeError: 'gbk' codec can't encode character '\ue40c' in position 9: illegal multibyte sequence
>>> '组图：震前汶川风光\ue40c震前汶川风光\u3000ＱＱ群４９１４６６７．作者肚螂皮'.encode('gb18030')
b'\xd7\xe9\xcd\xbc\xa3\xba\xd5\xf0\xc7\xb0\xe3\xeb\xb4\xa8\xb7\xe7\xb9\xe2\xfd\xa3\xd5\xf0\xc7\xb0\xe3\xeb\xb4\xa8\xb7\xe7\xb9\xe2\xa1\xa1\xa3\xd1\xa3\xd1\xc8\xba\xa3\xb4\xa3\xb9\xa3\xb1\xa3\xb4\xa3\xb6\xa3\xb6\xa3\xb7\xa3\xae\xd7\xf7\xd5\xdf\xb6\xc7\xf2\xeb\xc6\xa4'


>>> '组图：震前汶川风光\ue40c震前汶川风光\u3000ＱＱ群４９１４６６７．作者肚螂皮'.encode('gbk', errors='replace').decode('gbk')
'组图：震前汶川风光?震前汶川风光\u3000ＱＱ群４９１４６６７．作者肚螂皮'

你列举的两个问题用 GB18030 编码就没问题了；
GB* 编码本来容错就不好，所以遇到无法转换的编码应当用其它字符替代而不是简单地忽略，以免造成后续字符乱码（DOS 时代「删除半个汉字」造成乱码就是因为这个）。

我用 GB18030 解码你的文件没有问题：

Python 3.3.3 (default, Nov 26 2013, 13:33:18) 
[GCC 4.8.2] on linux
Type "help", "copyright", "credits" or "license" for more information.
>>> d = open('news_test.xml', encoding='gb18030')
>>> c = d.read()
>>> 


Python 2.7.6 (default, Nov 26 2013, 12:52:49) 
[GCC 4.8.2] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> d = open('news_test.xml') 
>>> b = d.read()
>>> c = b.decode('gb18030')
>>>

天蓬老师 · Answer

我也遇到了这样的问题，我做法是这样的：
1、先用GB18030读取，decode成Unicode
2、进行全角转成半角
3、将u'ue40c' replace成空格
4、最后统一按照utf-8输出
PS:其实最开始没做第3条，后来在进行分词的时候，发现了这个问题，然后重新过滤了一遍，其实我不知道还有没有隐藏别的问题，如果不放心的话，还是按照GB18030重新输出吧

附上我的全角转半角的代码

def strq2b(ustring):
"""全角转半角"""
rstring = ""
for uchar in ustring:
    inside_code=ord(uchar)
    if inside_code == 12288:#全角空格直接转换
        inside_code = 32 
    elif (inside_code >= 65281 and inside_code <= 65374):#全角字符（除空格）根据关系转化
        inside_code -= 65248
    rstring += unichr(inside_code)
return rstring

迷茫 · Answer

你写入的D:/news_test.txt是什么编码的文件？

怪我咯 · Answer

可是试试chardet啊